论文部分内容阅读
摘 要:利用数据挖掘技术,提出一种面向图书馆读者的简单可行的文件分类方法,该方法只需要网站日志文件中有关于读者使用的浏览纪录即可达到文件分类的功能。以这样的方式来进行数据和文件分类,可以方便图书管理系统的维护,并为读者查找利用馆藏资源提供便利。而且该方法可以更直接的反应读者的兴趣与偏好,有利于图书馆资源的及时优化与更新。
关键词:图书管理 文件分类 数据挖掘
中图分类号:G250 文献标识码:A 文章编号:1007-3973(2013)001-100-02
在当今信息爆炸的时代,图书馆馆藏资源尤其是电子资源越来越多,读者的要求越来越高,图书管理系统越来越复杂,如何才能使使广大读者便捷而有效地查找到所需资料是图书管理系统要解决的一个重大技术问题。
图书管理系统的数据文件包括书目数据、条形码数据、读者数据、期刊数据及各类统计数据,它是全体工作人员集体劳动的成果,是图书馆开展各项业务活动的基础。从技术的层面看,文件分类方法的设计对图书管理系统的优劣具有决定性的影响。目前图书管理系统中采用的分类方法多是以文字内容涵义为依据来衡量文件间的相似度,这种基于内容的分类方式不能很好地符合使用者的需求,且系统维护不方便。本文基于数据挖掘技术,提出以使用者的浏览纪录为导向的方式,将使用者的浏览纪录加以群集,成为种使用者导向的群集分类方式,可方便地应用于图书管理系统中。
1 数据挖掘技术
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。从广义上理解,数据、信息也是知识的表现形式,但是人们通常把概念、规则、模式、规律等看作知识,而把数据看作是形成知识的源泉。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。
数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询提升到从数据中挖掘知识,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
采用数据清理、数据集成和数据转换、数据归约等数据挖掘技术对图书数据进行预处理,不仅能节约系统资源,而且能对数据筛选使其更加具有规律性,从而提高数据挖掘过程的精度和性能。图书数据在经过一定的预处理后,用数据挖掘技术能更加快速准确地挖掘出隐藏在图书数据背后的有用的规则和潜在的信息,这将有利于合理配置图书馆的文献资源和提高资源的利用率,从而为读者提供个性化服务和对图书馆的服务提供决策支持,其研究成果的应用必将推动图书馆服务系统的完善,为社会提供更好的服务,创造良好的社会效益。
2 基于数据挖掘技术的文件分类方法
首先将管理系统日志文件中的数据分割为读者关键词使用数据与读者浏览数据两个部分,接着再由这两份数据表的整合而获得两者间的关联表,最后通过整合的关联表来计算网页间的相似度并获得最后的分类数据表。
经过对数据的处理后,利用使用者查询纪录表数据中的关键字与IP地址作为起始数据,接着将表中的IP地址作为搜寻的条件在使用者浏览纪录表中进行搜寻,最后再将表中的关键词与查询后所得到的浏览网页新增至另一个汇总表。
该方法的一个突出特点是可以解决搜寻引擎或是检索系统的查询字符串通常太短以至于无法包含充分的信息来分辨目标的文件的问题,与常用的单纯以使用者输入的关键词来相比,可以获得较多的关键词来对文章加以描述。获得了网页描述关键词句与权重后,就可以针对不同的两个页面之间的相似程度进行计算。
这里要先对网页空间向量V1与V2稍做处理,处理的方是先将V1与V2向量内的数据做联集,产生联集的向量U,之后再分别将V1及V2与U比较,产生新的V1与V2向量。经过相似度计算后产生相似矩阵表,然后再采用群集算法来针对相似矩阵中的数据进行群集运算。
3 在图书馆管理系统中的应用
本研究所使用的FAQ系统内的资料采用经由人工整理后的分类资料,全部618篇的FAQ问题经过分类后被分成14大类。因为这些FAQ问题的资料是由人工判断分辨后所产生的,因此每个类别里的数据应该都具有某种程度的不同特性。
本研究的评估方法是将模型系统在不同参数设定下执行产生的群集结果与先前经由人工分类的数据相比较,观察比较由本系统分群所产生的结果是否具有实质内容。而模型系统执行产生的结果是否具有实质内容的判定方式则是观察经由系统分群所产生的群集,看群集内部的项目内容是否与先前人工分类的资料属于同一类别。如果经由模型系统产生的群集与人工分类结果相同,则表示此群集具有意义,且群集效果好。如果经由模型系统产生的群集与人工分类结果不相同,则此群集效果就较差。
初步的观察618篇文章的点选状况之后,再观察研究所提出的方法在不同的参数下可以描述的网页数量有多少。首先浏览设定时间后30秒所产生有关键词可以描述的网页有312篇、60秒产生有关键词可以描述的网页有356篇、120秒产生有关键词可以描述的网页有412篇。可以发现并非全部618篇的文章都可以用使用者关键词描述,因此只有使用者兴趣越高的文章越容易被描述到。
4 结论
由上述的分析讨论可知,查询后的浏览时间超过某一范围时,查询准确度就会开始下降。随着时间的延长,使用者浏览的数据已经偏离了原先的查询目的。然而不同环境状况下平均多久的时间才是使用者正常浏览搜寻结果的数据,则可能因为不同的环境而有所差异,因此此参数值的设定应依据不同的环境而做不同的设定。
本文所提出的方法在不需要词库的情况下即可取出关键词来描述网页,而且因为这些关键词都是由使用者所输入,因此可以极大地降低无意义或不合法的词汇出现的情况。此外,对于权重的给定方式,过去大多采用TF/IDF的方式来给定,而在本研究中提出另外一种给定权重的方式。
通过本文所提出的方法,只需要图书馆管理网站的日志数据就可以对于网络资源上的文档进行自动群集操作,可以发现这种方法所获得的结果具有相当程度的准确度。另一方面,通过研究所提出的方法所得到的群集可以更直接的反应使用者的兴趣偏好,因为分群的资料的来源是网站日志文件中使用者查询与浏览的纪录。总之,以本文提出的方法来进行数据和文件分类,可以方便图书管理系统的维护,并为读者查找利用馆藏资源提供便利,同时该方法可以更直接的反应读者的兴趣与偏好,有利于图书馆资源的及时优化与更新。
参考文献:
[1] Berry,M.J.A.,G.S.Linoff.Data Mining Techniques For Marketing,Sales,and Customer Support[M].John Wiley & Sons,2011.
[2] 张文修,吴伟志.粗糙集理论与方法[M].北京:科学出版社,2009.
[3] 吴奕宽.浅论信息在教材图书采购中的应用[J].情报科学,2010,20(1).
[4] Broder,A.,S.Glassman,M.Manasse and G.Zweig.Syntactic Clustering of the Web.In Proceedings of the Sixth International World Wide Web Conference,2007:391-404.
关键词:图书管理 文件分类 数据挖掘
中图分类号:G250 文献标识码:A 文章编号:1007-3973(2013)001-100-02
在当今信息爆炸的时代,图书馆馆藏资源尤其是电子资源越来越多,读者的要求越来越高,图书管理系统越来越复杂,如何才能使使广大读者便捷而有效地查找到所需资料是图书管理系统要解决的一个重大技术问题。
图书管理系统的数据文件包括书目数据、条形码数据、读者数据、期刊数据及各类统计数据,它是全体工作人员集体劳动的成果,是图书馆开展各项业务活动的基础。从技术的层面看,文件分类方法的设计对图书管理系统的优劣具有决定性的影响。目前图书管理系统中采用的分类方法多是以文字内容涵义为依据来衡量文件间的相似度,这种基于内容的分类方式不能很好地符合使用者的需求,且系统维护不方便。本文基于数据挖掘技术,提出以使用者的浏览纪录为导向的方式,将使用者的浏览纪录加以群集,成为种使用者导向的群集分类方式,可方便地应用于图书管理系统中。
1 数据挖掘技术
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。从广义上理解,数据、信息也是知识的表现形式,但是人们通常把概念、规则、模式、规律等看作知识,而把数据看作是形成知识的源泉。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。
数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询提升到从数据中挖掘知识,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
采用数据清理、数据集成和数据转换、数据归约等数据挖掘技术对图书数据进行预处理,不仅能节约系统资源,而且能对数据筛选使其更加具有规律性,从而提高数据挖掘过程的精度和性能。图书数据在经过一定的预处理后,用数据挖掘技术能更加快速准确地挖掘出隐藏在图书数据背后的有用的规则和潜在的信息,这将有利于合理配置图书馆的文献资源和提高资源的利用率,从而为读者提供个性化服务和对图书馆的服务提供决策支持,其研究成果的应用必将推动图书馆服务系统的完善,为社会提供更好的服务,创造良好的社会效益。
2 基于数据挖掘技术的文件分类方法
首先将管理系统日志文件中的数据分割为读者关键词使用数据与读者浏览数据两个部分,接着再由这两份数据表的整合而获得两者间的关联表,最后通过整合的关联表来计算网页间的相似度并获得最后的分类数据表。
经过对数据的处理后,利用使用者查询纪录表数据中的关键字与IP地址作为起始数据,接着将表中的IP地址作为搜寻的条件在使用者浏览纪录表中进行搜寻,最后再将表中的关键词与查询后所得到的浏览网页新增至另一个汇总表。
该方法的一个突出特点是可以解决搜寻引擎或是检索系统的查询字符串通常太短以至于无法包含充分的信息来分辨目标的文件的问题,与常用的单纯以使用者输入的关键词来相比,可以获得较多的关键词来对文章加以描述。获得了网页描述关键词句与权重后,就可以针对不同的两个页面之间的相似程度进行计算。
这里要先对网页空间向量V1与V2稍做处理,处理的方是先将V1与V2向量内的数据做联集,产生联集的向量U,之后再分别将V1及V2与U比较,产生新的V1与V2向量。经过相似度计算后产生相似矩阵表,然后再采用群集算法来针对相似矩阵中的数据进行群集运算。
3 在图书馆管理系统中的应用
本研究所使用的FAQ系统内的资料采用经由人工整理后的分类资料,全部618篇的FAQ问题经过分类后被分成14大类。因为这些FAQ问题的资料是由人工判断分辨后所产生的,因此每个类别里的数据应该都具有某种程度的不同特性。
本研究的评估方法是将模型系统在不同参数设定下执行产生的群集结果与先前经由人工分类的数据相比较,观察比较由本系统分群所产生的结果是否具有实质内容。而模型系统执行产生的结果是否具有实质内容的判定方式则是观察经由系统分群所产生的群集,看群集内部的项目内容是否与先前人工分类的资料属于同一类别。如果经由模型系统产生的群集与人工分类结果相同,则表示此群集具有意义,且群集效果好。如果经由模型系统产生的群集与人工分类结果不相同,则此群集效果就较差。
初步的观察618篇文章的点选状况之后,再观察研究所提出的方法在不同的参数下可以描述的网页数量有多少。首先浏览设定时间后30秒所产生有关键词可以描述的网页有312篇、60秒产生有关键词可以描述的网页有356篇、120秒产生有关键词可以描述的网页有412篇。可以发现并非全部618篇的文章都可以用使用者关键词描述,因此只有使用者兴趣越高的文章越容易被描述到。
4 结论
由上述的分析讨论可知,查询后的浏览时间超过某一范围时,查询准确度就会开始下降。随着时间的延长,使用者浏览的数据已经偏离了原先的查询目的。然而不同环境状况下平均多久的时间才是使用者正常浏览搜寻结果的数据,则可能因为不同的环境而有所差异,因此此参数值的设定应依据不同的环境而做不同的设定。
本文所提出的方法在不需要词库的情况下即可取出关键词来描述网页,而且因为这些关键词都是由使用者所输入,因此可以极大地降低无意义或不合法的词汇出现的情况。此外,对于权重的给定方式,过去大多采用TF/IDF的方式来给定,而在本研究中提出另外一种给定权重的方式。
通过本文所提出的方法,只需要图书馆管理网站的日志数据就可以对于网络资源上的文档进行自动群集操作,可以发现这种方法所获得的结果具有相当程度的准确度。另一方面,通过研究所提出的方法所得到的群集可以更直接的反应使用者的兴趣偏好,因为分群的资料的来源是网站日志文件中使用者查询与浏览的纪录。总之,以本文提出的方法来进行数据和文件分类,可以方便图书管理系统的维护,并为读者查找利用馆藏资源提供便利,同时该方法可以更直接的反应读者的兴趣与偏好,有利于图书馆资源的及时优化与更新。
参考文献:
[1] Berry,M.J.A.,G.S.Linoff.Data Mining Techniques For Marketing,Sales,and Customer Support[M].John Wiley & Sons,2011.
[2] 张文修,吴伟志.粗糙集理论与方法[M].北京:科学出版社,2009.
[3] 吴奕宽.浅论信息在教材图书采购中的应用[J].情报科学,2010,20(1).
[4] Broder,A.,S.Glassman,M.Manasse and G.Zweig.Syntactic Clustering of the Web.In Proceedings of the Sixth International World Wide Web Conference,2007:391-404.