论文部分内容阅读
摘要:在大数据迅速发展的浪潮下,用户对图书馆智能化要求愈加明显,本文通过对学术资源的深度挖掘和个性化推送服务的深入研究,探讨了如何将数据挖掘技术应用到图书馆个性化推送服务中,希望为读者提供更高质量的信息服务。
关键词:大数据 高校图书馆 深度挖掘 个性化推送服务
中图分类号:G2507文献标识码:A文章编号:1009-5349(2017)12-0095-02
当前,高校图书馆在提升智能化服务程度的基础上,逐渐加强了针对知识信息的传播、挖掘服务功能,就目前文献主题搜索情况来看,高校图书馆还存在着一些不足,它没有主动挖掘师生的需求,缺乏针对用户的需求信息的深度推荐以及没有全面考虑用户的个性化需求。因此,图书馆未来的重点研究方向应为如何进行个性化的推送服务,并将其与数据挖掘技术紧密联系起来,使其在帮助师生快速找到自己所需的知识和信息的同时,还能够提高学生的学习效率。
一、大数据时代图书馆信息资源深度挖掘关键技术
(一)基于 Hadoop 的分布式数据挖掘技术
Hadoop 主要是由编程模型MapReduce和分布式文件系统 HDFS两个核心部分组成,分布式文件系统HDFS为大规模数据集上的应用提供可靠的分布式文件访问。HDFS 与 MapReduce 紧密配合,构成了Hadoop 的基础,使它能够将程序分割成多个独立的单元,并分发到不同的节点,通过各个节点的计算能力完成整个程序的运作。[1]
(二)向量空间模型
在信息服务中计算资源相似度时使用了向量空間模型。该模型是60年代末Salton等人最先提出的, 是计算两个文档相似度较为经典的模型,文档在该模型中被表示为向量,因此,文档相似度的计算问题也就可以转变成为欧式空间中向量的计算问题。向量空间模型是应用于信息过滤,信息撷取,索引以及评估相关性的代数模型,主要的计算思想是对所有的信息内容先采用分词处理,然后把信息资源细分为独立的词语组合。
(三)聚类分析
聚类分析就是从一个聚类变量中提取N种特征,并将这N种特征存放到一个N维向量之中,利用得到的N维向量空间与其他聚类向量做相似性对比,逐渐形成按照某种规则进行分类的方式,使得在同一规则下的一组聚类变量成为同类,同类之间的特征最为相近,不同类之间的特征相距较远。聚类算法常应用于高校图书馆分析读者行为特征的模块,在对读者访问的同一类期刊资源数据时,往往需要用聚类的方法进行相似性聚合。
(四)关联规则算法
关联规则是通过发现事物之间的关联关系,实现从一件事情的发生来预测另一件事件的发生,从而能够更好地了解和掌握事物发展的规律等。算法通过对所提供的数据进行多次扫描,根据所指定的支持度而产生频繁项集,之后根据指定的置信度来产生关联规则集。图书馆建设已经开始进入资源整合与面向用户的数字化服务阶段,通过关联规则挖掘能够进行更高层次的分析,以便更好地为读者服务。
二、大数据时代图书馆个性化推送服务
对高校图书馆而言,数字资源的积累经历了传统的数字化到原生数字资源的发展过程[2],在这一过程中,大部分学生仅是利用搜索工具查找目的书籍的位置所在,学生在阅读各类文献书籍没有过多经验,其浏览文献质量好坏的评定就是如何运用关键字和相关数据处理技术从大量的差异化的数据中,既省时省力又可以精确地获得自己想要的高质量文献书籍。
(一)建立用户个性化分析模型
根据学生的信息搜索以及借书记录,对其个性化服务需求进行进一步剖析,利用先进的数据挖掘和分析处理技术深度挖掘大量丰富的网上资源,充分采集用户需要的信息,在用户登录图书馆网站上及时推送出相关高质量书籍,提高用户所需书籍的获取效率。
(二)为图书馆规划提供数据支持
为用户提供满意、高效的阅读体验,始终是高校图书馆的服务理念。但高校图书馆可能存在人员分配不足、数据调研不全面等相关问题,不能及时了解到多数学生所关注的书籍,以至于达到一个书籍资源丰富仍旧不能满足用户的阅读需求。建立高校个性化推送服务,通过分析用户借阅书籍数据,可以判断学生阅读文献书籍的总体趋势,为图书馆挖掘出大部分用户所关注的书籍、近期的热门书籍,从而对图书馆馆藏书籍进行有效判断和书籍的及时更新,并合理采购各式文献书籍和热门网络文献,能够提高读者对图书馆馆藏资源的利用率。
(三)建立专业文献数据库
同一专业,研究课题相似的用户有着共同的专业文献需求,因此高校图书馆可以为不同专业的学生提供更为细化的个性化推送服务。我们可以建立关于不同专业的文献存储数据库,专业教师均可登录校内网上图书馆,在各自专业的数据库目录内容下构建专业化的、课题化的阅读内容,为用户推荐与其所学专业相关的、实用度更高的专业书籍。
三、数据深度挖掘在图书馆个性化推送服务中的应用
(一)在读者个性化推送内容上的应用
为使这种服务变得更加便利与快速,可以利用深度挖掘技术收集读者的相关信息,并对这些大数据进行深度挖掘,分析读者的喜好以及需求,利用关联规则等算法将这一庞大数据分解成不同的小数据,进而运用聚类分析等算法分析读者所需要的信息,建立完善的读者专属的数据库,并在此过滤掉无用的信息,使得信息的利用率达到最大,从而为读者推送所需要、具有针对性的信息,为读者在图书馆这一庞大的数据库中寻找所需信息提供了便利。
(二)图书馆学术资源信息化的应用
随着大数据时代的发展,对信息化的需求也越来越高,而图书馆不仅仅有馆藏资源,还有丰富的网络资源,为使数据庞大的图书馆信息获取变得快速、准确,这就需要利用深度挖掘中的向量空间模型与聚类分析等算法对图书馆中的数据进行整合,为读者用户提供快速精确的检索服务,并根据读者用户的检索与借阅记录等,通过关联分析,为用户推送所期望的信息与服务,使得图书馆学术资源的信息化变得更加丰富完善。
(三)个性化服务质量与多元化发展的应用
在满足读者用户需求的同时,也使得图书馆的学术资源得以改进与完善,但在收集读者信息的同时,有许多无用的噪声信息,需要将这些噪声信息排除在每个用户信息的数据库之外,这就需要利用数据的深度挖掘技术,将大数据中的数据进行分析,处理掉噪声数据。在数据收集过程中,每个用户所需的内容也不同,这就需要将这些大数
据整合处理为具有针对性的小数据库。正是这些小数据库为每个用户进行个性化的推送服务,并且这些小数据库的容量有限,可以更好地保护读者用户的隐私信息。其次,利用深度挖掘的关联规则等算法分析整合读者用户对推送内容的反馈,及时更新数据库,为读者提供更贴心的服务,并不断丰富数字图书馆的资源,使其向多元化发展。
四、结语
通过研究我们发现,在大数据时代下,图书馆仍然存在着用户个性化信息需求与大量信息资源之间信息不对称的矛盾,即用户个性化阅读服务质量需求高,而数据深度挖掘和发现用户需求方面研究少等问题。所以图书馆必须及时转变服务角色与技术,在依托数据挖掘平台的支持,根据深度数据挖掘的关键技术,建立用户个性化分析模型,为图书馆提供数据支持,建立专业文献数据库等方式来最大限度地提高用户满意度和图书馆服务性能。高校图书馆应以数据挖掘技术为工具,用户个性化需求和服务为核心,实现具有特色化、智能化、多元化、主动化的新型图书馆,为广大读者用户带来更高效、更便利、更精确的服务。
参考文献:
[1]李浩.基于Hadoop的分布式数据挖掘关键技术研究[D].电子科技大学,2015.
[2]蔡新红.大数据时代图书馆信息资源个性化服务模式研究[J].科技创新导报,2014(17):195-196.
责任编辑:杨国栋
关键词:大数据 高校图书馆 深度挖掘 个性化推送服务
中图分类号:G2507文献标识码:A文章编号:1009-5349(2017)12-0095-02
当前,高校图书馆在提升智能化服务程度的基础上,逐渐加强了针对知识信息的传播、挖掘服务功能,就目前文献主题搜索情况来看,高校图书馆还存在着一些不足,它没有主动挖掘师生的需求,缺乏针对用户的需求信息的深度推荐以及没有全面考虑用户的个性化需求。因此,图书馆未来的重点研究方向应为如何进行个性化的推送服务,并将其与数据挖掘技术紧密联系起来,使其在帮助师生快速找到自己所需的知识和信息的同时,还能够提高学生的学习效率。
一、大数据时代图书馆信息资源深度挖掘关键技术
(一)基于 Hadoop 的分布式数据挖掘技术
Hadoop 主要是由编程模型MapReduce和分布式文件系统 HDFS两个核心部分组成,分布式文件系统HDFS为大规模数据集上的应用提供可靠的分布式文件访问。HDFS 与 MapReduce 紧密配合,构成了Hadoop 的基础,使它能够将程序分割成多个独立的单元,并分发到不同的节点,通过各个节点的计算能力完成整个程序的运作。[1]
(二)向量空间模型
在信息服务中计算资源相似度时使用了向量空間模型。该模型是60年代末Salton等人最先提出的, 是计算两个文档相似度较为经典的模型,文档在该模型中被表示为向量,因此,文档相似度的计算问题也就可以转变成为欧式空间中向量的计算问题。向量空间模型是应用于信息过滤,信息撷取,索引以及评估相关性的代数模型,主要的计算思想是对所有的信息内容先采用分词处理,然后把信息资源细分为独立的词语组合。
(三)聚类分析
聚类分析就是从一个聚类变量中提取N种特征,并将这N种特征存放到一个N维向量之中,利用得到的N维向量空间与其他聚类向量做相似性对比,逐渐形成按照某种规则进行分类的方式,使得在同一规则下的一组聚类变量成为同类,同类之间的特征最为相近,不同类之间的特征相距较远。聚类算法常应用于高校图书馆分析读者行为特征的模块,在对读者访问的同一类期刊资源数据时,往往需要用聚类的方法进行相似性聚合。
(四)关联规则算法
关联规则是通过发现事物之间的关联关系,实现从一件事情的发生来预测另一件事件的发生,从而能够更好地了解和掌握事物发展的规律等。算法通过对所提供的数据进行多次扫描,根据所指定的支持度而产生频繁项集,之后根据指定的置信度来产生关联规则集。图书馆建设已经开始进入资源整合与面向用户的数字化服务阶段,通过关联规则挖掘能够进行更高层次的分析,以便更好地为读者服务。
二、大数据时代图书馆个性化推送服务
对高校图书馆而言,数字资源的积累经历了传统的数字化到原生数字资源的发展过程[2],在这一过程中,大部分学生仅是利用搜索工具查找目的书籍的位置所在,学生在阅读各类文献书籍没有过多经验,其浏览文献质量好坏的评定就是如何运用关键字和相关数据处理技术从大量的差异化的数据中,既省时省力又可以精确地获得自己想要的高质量文献书籍。
(一)建立用户个性化分析模型
根据学生的信息搜索以及借书记录,对其个性化服务需求进行进一步剖析,利用先进的数据挖掘和分析处理技术深度挖掘大量丰富的网上资源,充分采集用户需要的信息,在用户登录图书馆网站上及时推送出相关高质量书籍,提高用户所需书籍的获取效率。
(二)为图书馆规划提供数据支持
为用户提供满意、高效的阅读体验,始终是高校图书馆的服务理念。但高校图书馆可能存在人员分配不足、数据调研不全面等相关问题,不能及时了解到多数学生所关注的书籍,以至于达到一个书籍资源丰富仍旧不能满足用户的阅读需求。建立高校个性化推送服务,通过分析用户借阅书籍数据,可以判断学生阅读文献书籍的总体趋势,为图书馆挖掘出大部分用户所关注的书籍、近期的热门书籍,从而对图书馆馆藏书籍进行有效判断和书籍的及时更新,并合理采购各式文献书籍和热门网络文献,能够提高读者对图书馆馆藏资源的利用率。
(三)建立专业文献数据库
同一专业,研究课题相似的用户有着共同的专业文献需求,因此高校图书馆可以为不同专业的学生提供更为细化的个性化推送服务。我们可以建立关于不同专业的文献存储数据库,专业教师均可登录校内网上图书馆,在各自专业的数据库目录内容下构建专业化的、课题化的阅读内容,为用户推荐与其所学专业相关的、实用度更高的专业书籍。
三、数据深度挖掘在图书馆个性化推送服务中的应用
(一)在读者个性化推送内容上的应用
为使这种服务变得更加便利与快速,可以利用深度挖掘技术收集读者的相关信息,并对这些大数据进行深度挖掘,分析读者的喜好以及需求,利用关联规则等算法将这一庞大数据分解成不同的小数据,进而运用聚类分析等算法分析读者所需要的信息,建立完善的读者专属的数据库,并在此过滤掉无用的信息,使得信息的利用率达到最大,从而为读者推送所需要、具有针对性的信息,为读者在图书馆这一庞大的数据库中寻找所需信息提供了便利。
(二)图书馆学术资源信息化的应用
随着大数据时代的发展,对信息化的需求也越来越高,而图书馆不仅仅有馆藏资源,还有丰富的网络资源,为使数据庞大的图书馆信息获取变得快速、准确,这就需要利用深度挖掘中的向量空间模型与聚类分析等算法对图书馆中的数据进行整合,为读者用户提供快速精确的检索服务,并根据读者用户的检索与借阅记录等,通过关联分析,为用户推送所期望的信息与服务,使得图书馆学术资源的信息化变得更加丰富完善。
(三)个性化服务质量与多元化发展的应用
在满足读者用户需求的同时,也使得图书馆的学术资源得以改进与完善,但在收集读者信息的同时,有许多无用的噪声信息,需要将这些噪声信息排除在每个用户信息的数据库之外,这就需要利用数据的深度挖掘技术,将大数据中的数据进行分析,处理掉噪声数据。在数据收集过程中,每个用户所需的内容也不同,这就需要将这些大数
据整合处理为具有针对性的小数据库。正是这些小数据库为每个用户进行个性化的推送服务,并且这些小数据库的容量有限,可以更好地保护读者用户的隐私信息。其次,利用深度挖掘的关联规则等算法分析整合读者用户对推送内容的反馈,及时更新数据库,为读者提供更贴心的服务,并不断丰富数字图书馆的资源,使其向多元化发展。
四、结语
通过研究我们发现,在大数据时代下,图书馆仍然存在着用户个性化信息需求与大量信息资源之间信息不对称的矛盾,即用户个性化阅读服务质量需求高,而数据深度挖掘和发现用户需求方面研究少等问题。所以图书馆必须及时转变服务角色与技术,在依托数据挖掘平台的支持,根据深度数据挖掘的关键技术,建立用户个性化分析模型,为图书馆提供数据支持,建立专业文献数据库等方式来最大限度地提高用户满意度和图书馆服务性能。高校图书馆应以数据挖掘技术为工具,用户个性化需求和服务为核心,实现具有特色化、智能化、多元化、主动化的新型图书馆,为广大读者用户带来更高效、更便利、更精确的服务。
参考文献:
[1]李浩.基于Hadoop的分布式数据挖掘关键技术研究[D].电子科技大学,2015.
[2]蔡新红.大数据时代图书馆信息资源个性化服务模式研究[J].科技创新导报,2014(17):195-196.
责任编辑:杨国栋