论文部分内容阅读
近些年来,我国居民随着生活水平的逐年提高,已经能够较好地接受“数字化生存”这一生活方式了,由于数字图书馆具有信息更新速度快、信息存储量大、不受时间和空间的限制以及占用空间小等有特点,所以它也越来越受到人们的关注。虽然数字图书馆确实为人们带来了非常多的方便和便捷,但是由于其包含的信息资源非常庞大并且形式多样,所以人们在一定程度上也受到了干扰。导向性是信息资源的基本属性之一,同一个信息在不同的使用用户中表现出的价值肯定是有差异的,某一项信息无法满足所有的需求,而某个单一的用户肯定也并不需要所有的信息资源。怎样处理这一问题呢? 数字图书馆的个性化服务就能很好地解决这一问题,数字图书馆的个性化服务的概念就是参照用户所使用信息的习惯、偏好、行为以及特殊的需求等,经过分析从而真正地为用户提供满足其要求的内容以及系统功能的一种服务。首先这种服务必须是能满足数字图书馆单一用户信息需求的服务,也就是在用户明确地提出了信息需求后,通过对用户以往的使用习惯以及使用行为等内容进行分析,从而为其提供服务;其次,这种服务还是一类能够充分地培养用户的个性,发展用户需求的服务,而这对于整个社会朝着多样性的发展也是有帮助的。数据挖掘技术是一种新兴的计算技术,其在商业零售、科学发现,以及医疗等众多领域都得到了应用,近些年来,它也逐渐应用到了数字图书馆领域中。
一、数据挖掘及相关技术
数据挖掘是指从从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中抽取有价值的信息,帮助决策者和管理者寻找数据间潜在的关联,发现隐含的、对决策有潜在价值的关系和模式,用于预测未来趋势及为决策行为。数据挖掘是一门交叉学科也是一门边缘学科。它与数据库技术、模式识别、统计学、信息检索、人工智能、机器学习等有密切关系。
数据挖掘有分析方法有:分类、估计、预测、关联规则、聚类、可视化、复杂数据类型挖掘、音频、视频、图形图像等)。这些分析方法又可以分为直接数据挖掘和间接数据挖掘两种。直接数据额挖掘就是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量进行描述。间接数据挖掘就是目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。
二、数据挖掘在数字图书馆中的应用
1、个性化服务。在数字图书馆的整个系统中,其个性化的服务都是很重要的环节,网络已经越来越智能化了,那么信息服务也会随之变得智能化,不再是传统的被动化的服务方式,而是主动化的服务方式。一般情况下,我们将数字图书馆的个性化服务概括为两个层次,第一个层次是根据用户的自身需要对信息进行定制,举例来说,慧聪国际系列应用软件中的 I get 和 My info 这两个个性化服务软件,都是属于这个层次的,主要包括了重要事件提示、数字图书馆站内搜索以及网络搜索等内容。而另一个层次就是充分地分析用户的兴趣模式,主动地向用户提供服务,使数字图书馆更加的智能化和主动化。
2、提高信息获取速度。数字图书馆中的信息量是庞大的,在堆积如山的数据中包含着许多待提取的有用知识。对于用户来说,他关心自己的需要是不是能够被满足要胜于关心数字图书馆中的信息量。因此,要为用户提供更快、更有效的服务,就必须有一套很好的搜索机制。数据挖掘技术为数字化图书馆提供了先进的信息检索工具,在数字图书馆的检索中采用数据挖掘的相关理论和方法,设计的系统将有更大的智能性。数字图书馆可运用兴趣模式算法判断并争取潜在用户,在服务过程中,还可利用可视化技术帮助用户进行在线实时信息分析。
为保证用户在尽可能短的响应时间内获取所需信息,要搜集用户每次阅读的专题集合(浏览模式)作为一个事实,记录所有用户每一次的浏览过程构成事务库,再对事务库进行如下操作:①利用关联规则采掘算法找到访问频率超过给定阈值的专题(项目)集,进而用分类算法把客户的浏览模式与频繁项目集进行相似匹配,将具有相似浏览模式的客户组织到一个服务器上,从而减少服务器缓存和传输页面的数量;②找到事务库中某频率访问的专题集,利用关联分析得到专题之间的关联规则,存入服务器的知识库,当用户浏览某页面时,网络代理根据规则预先连接其关联页面,从而提高响应速度;③也可利用Web挖掘得到用户访问序列模式,根据预测,预先传播用户可能阅读的页面。
3、拓展了服务形式,提升了服务质量。数字图书馆在现代信息技术的帮助下,它的意义已经不仅仅是服务于媒体和转换时空了,更重要的是它在数据挖掘技术的帮助下来提升服务水平和拓展服务形式。(1)信息检索服务。数字图书馆提供的一个很重要的功能就是信息检索,它也是衡量数字图书馆服务质量的重要的参考依据。(2)查新服務与定题服务。这是两类针对科研的信息服务,传统的服务方式是查询光盘数据库或是文献数据库,但是现代社会已经是网络时代了,外部网络这一信息发布平台信息发布和更新的速度极快,所以为了保证服务结果的真实性和可靠性,我们就更应该重视网络平台了。
数字图书馆的个性化服务改变了传统的被动化的运作方式,开创了“用户需要什么,我就提供什么”的主动化的操作模式,而这种个性化的服务模式也必将成为数字图书馆技术发展的主要趋势。在我国网络用户群体数量大幅度增长的今天,只有提供最具针对性并且个性化的信息服务,用户的需求才能得到满足。数据挖掘技术在庞大信息资源中仍能提供极具智能化的个性服务,所以其为数字图书馆的建设工作中提供了十分关键的支持和保障。然而数据挖掘技术属于一种新兴的技术,其还是存在着一些问题的,如数据的可视化、数据挖掘语言的标准化,以及多层次、多种类知识的高效挖掘方法等内容都是需要我们不断地探索和研究,未来的数据挖掘技术一定会对数字图书馆的建设工作产生十分关键的积极影响。
一、数据挖掘及相关技术
数据挖掘是指从从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中抽取有价值的信息,帮助决策者和管理者寻找数据间潜在的关联,发现隐含的、对决策有潜在价值的关系和模式,用于预测未来趋势及为决策行为。数据挖掘是一门交叉学科也是一门边缘学科。它与数据库技术、模式识别、统计学、信息检索、人工智能、机器学习等有密切关系。
数据挖掘有分析方法有:分类、估计、预测、关联规则、聚类、可视化、复杂数据类型挖掘、音频、视频、图形图像等)。这些分析方法又可以分为直接数据挖掘和间接数据挖掘两种。直接数据额挖掘就是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量进行描述。间接数据挖掘就是目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。
二、数据挖掘在数字图书馆中的应用
1、个性化服务。在数字图书馆的整个系统中,其个性化的服务都是很重要的环节,网络已经越来越智能化了,那么信息服务也会随之变得智能化,不再是传统的被动化的服务方式,而是主动化的服务方式。一般情况下,我们将数字图书馆的个性化服务概括为两个层次,第一个层次是根据用户的自身需要对信息进行定制,举例来说,慧聪国际系列应用软件中的 I get 和 My info 这两个个性化服务软件,都是属于这个层次的,主要包括了重要事件提示、数字图书馆站内搜索以及网络搜索等内容。而另一个层次就是充分地分析用户的兴趣模式,主动地向用户提供服务,使数字图书馆更加的智能化和主动化。
2、提高信息获取速度。数字图书馆中的信息量是庞大的,在堆积如山的数据中包含着许多待提取的有用知识。对于用户来说,他关心自己的需要是不是能够被满足要胜于关心数字图书馆中的信息量。因此,要为用户提供更快、更有效的服务,就必须有一套很好的搜索机制。数据挖掘技术为数字化图书馆提供了先进的信息检索工具,在数字图书馆的检索中采用数据挖掘的相关理论和方法,设计的系统将有更大的智能性。数字图书馆可运用兴趣模式算法判断并争取潜在用户,在服务过程中,还可利用可视化技术帮助用户进行在线实时信息分析。
为保证用户在尽可能短的响应时间内获取所需信息,要搜集用户每次阅读的专题集合(浏览模式)作为一个事实,记录所有用户每一次的浏览过程构成事务库,再对事务库进行如下操作:①利用关联规则采掘算法找到访问频率超过给定阈值的专题(项目)集,进而用分类算法把客户的浏览模式与频繁项目集进行相似匹配,将具有相似浏览模式的客户组织到一个服务器上,从而减少服务器缓存和传输页面的数量;②找到事务库中某频率访问的专题集,利用关联分析得到专题之间的关联规则,存入服务器的知识库,当用户浏览某页面时,网络代理根据规则预先连接其关联页面,从而提高响应速度;③也可利用Web挖掘得到用户访问序列模式,根据预测,预先传播用户可能阅读的页面。
3、拓展了服务形式,提升了服务质量。数字图书馆在现代信息技术的帮助下,它的意义已经不仅仅是服务于媒体和转换时空了,更重要的是它在数据挖掘技术的帮助下来提升服务水平和拓展服务形式。(1)信息检索服务。数字图书馆提供的一个很重要的功能就是信息检索,它也是衡量数字图书馆服务质量的重要的参考依据。(2)查新服務与定题服务。这是两类针对科研的信息服务,传统的服务方式是查询光盘数据库或是文献数据库,但是现代社会已经是网络时代了,外部网络这一信息发布平台信息发布和更新的速度极快,所以为了保证服务结果的真实性和可靠性,我们就更应该重视网络平台了。
数字图书馆的个性化服务改变了传统的被动化的运作方式,开创了“用户需要什么,我就提供什么”的主动化的操作模式,而这种个性化的服务模式也必将成为数字图书馆技术发展的主要趋势。在我国网络用户群体数量大幅度增长的今天,只有提供最具针对性并且个性化的信息服务,用户的需求才能得到满足。数据挖掘技术在庞大信息资源中仍能提供极具智能化的个性服务,所以其为数字图书馆的建设工作中提供了十分关键的支持和保障。然而数据挖掘技术属于一种新兴的技术,其还是存在着一些问题的,如数据的可视化、数据挖掘语言的标准化,以及多层次、多种类知识的高效挖掘方法等内容都是需要我们不断地探索和研究,未来的数据挖掘技术一定会对数字图书馆的建设工作产生十分关键的积极影响。