论文部分内容阅读
摘要:数据挖掘就是从大量数据中提取有效的、潜在可用的、最终可被理解的模式的过程。以南京铁道职业技术学院图书馆为例,提出利用数据挖掘技术来提高高校图书服务水平的想法。
关键词:数据挖掘;高校图书馆
中图分类号:NT 文献标识码:A 文章编号:1671-7597(2011)0220170-01
本文希望通过数据挖掘技术,对高校图书馆系统的数据进行研究,能够改进图书馆的管理和服务理念,增强图书馆的特色及个性化服务,在图书馆的信息化转变的过程中,发挥基础作用能够有效地缓解图书馆工作与师生的实际需求脱节的现象。
1、数据挖掘技术
数据挖掘一般包括4个步骤:1)数据准备。数据挖掘是一个过程,而数据准备则为这个过程的核心。数据的准备包括了:获取数据、提高数据质量与数据导出3个方面。2)确定主题。了解研究主题的局限性,选择需要完成的良好的研究主题,确定待研究的合适的数据元素,以及决定如何进行数据抽样。3)读入数据并建立模型。数据挖掘模型应该具有准确性和可理解性。4)理解模型和预测。无论使用哪种模型,模型报告都会告诉你什么信息与特定结果具有关联关系。对于真正的预测而言,预测所得出的都将是事先未知的结果。
常用的数据挖掘算法:1)关联规则方法。两个或两个以上变量的取值之间存在某种规律性,就称为关联。2)分类。分类是通过对样本数据库的数据进行分析,准确找出每个类别的概念描述或者建立分析模型,然后用这个分类规则或决策树模式应用到同类数据库中,是一种有指导的学习。
2、高校图书馆数据分析
高校图书馆的数据一般具有以下特点:1)大量性。隨着高校的不断发展,图书馆馆藏也不断加增,高校图书馆的借阅记录、馆藏数据都达到了海量的级别。2)关联性。在高校图书馆系统所积累的大量借阅记录数据中,由于不同的读者同时借阅多种图书都有自己的原因,这就说明借阅记录数据之间存在有一定的关联性。3)包含信息的潜在性。高校图书馆的大量数据中一定包含有许多非常有价值的信息,比如可能从中分析和挖掘出读者的现在及未来需求,让每个图书馆员都知道自己所拥有的信息被哪些读者所需要。
3、数据挖掘在图书馆个性化服务中应用实例
在数据挖掘的诸多算法中,以关联规则算法、分类算法在图书馆中的应用最多,也最广泛。下面,将以南京铁道职业学院图书馆为例,分析这两类算法在图书馆中的应用。
3.1关联规则算法的应用。
下面以2010年6月15日至17日的读者借阅数据为例,进行关联规则分析。从表1中,我们可以发现在这10次借阅中有6次图书A和B被同时借出,各有4次图书A和B被分别借出。用关联分析法分析读者借阅图书A和B的相关性,就可以得到:在此期间,读者同时借阅了图书A和B的概率是60%。借阅了图书A的读者同时又借阅了图书B的概率是67%等规律。如果我们设阀值为30%,那么,我们可以向借阅了图书A的读者推荐图书B,可以建立图书A和B之间的超链,或者在介绍A时直接向读者推荐B。那么在读者下次借阅时可以根据读者借阅图书种类为读者提供参考意见和相关资料。这样就可以节省用户的大量时间,从而提高服务的质量和效率。此种结果也可以用在读者检索的结果反馈信息中。
使用数据挖掘的探测性分析功能,可以针对图书流通特定问题的分析中,挖掘清楚读者有什么样的借阅需求,并灵活地利用图书引擎获取相关图书信息。通过数据挖掘分析服务可以浏览广泛的图书借阅信息,寻找相关数据并提交数据,为图书馆的个性化服务提供了科学的客观依据。
3.2分类算法的应用
以铁道专业类图书为例:
从图表2中,我们发现,除了U交通类书籍外,TM电工技术类和TU建筑类书的借阅量也很大。这是与学院的铁路及相关专业设置有关。因而,在这个专业书库进行调整库位时,若完全按分类号来排架,TM、TU类书籍排在TB、TH后,这两类书就会排在角落里,很不方便读者寻找图书,也不利于图书的流通。因此,我们打破定势,将TB、TH类书籍挪到后面。这样流通量最大的U、TM、TU三类书籍在图书馆最明显的位置,读者一进馆就能方便找到想要的书籍。这种流通量比较大的书籍,更新速度也比较快,经常会采购新书。因而,在排架时,就需要多预留空位。
4、结论
事实上,数据挖掘技术在高校图书馆系统中的应用还存在很大的障碍。这主要表现在数据完整性的问题,只能掌握读者所借阅图书的数据,无法与读者在校其他部门中的相关联进行整体分析,这限制了挖掘的深度。因此,图书馆应该进一步注重对读者信息库的建设,加强学院各部门间信息共享。虽然数据挖掘在高校图书馆系统中的应用仍存在障碍,但是根据以上分析的数据特点,还是可以看出,在高校图书馆的系统管理中应用数据挖掘技术具有很大的必要性和可行性。
参考文献:
[1]Jiawei Han、Micheline Kamber,数据挖掘概念与技术,北京:机械工业出版社,2007
[2]晓冬荣、黄静,给予均值、方差和偏度的投资组合模糊优化模型,统计与决策,2006(14),P37-38
[3]吕彦红、陈基漓、金弊、阮百尧,数据挖掘在高校图书馆的应用,科技情报开发与经济,2007,17(18)P3-5
关键词:数据挖掘;高校图书馆
中图分类号:NT 文献标识码:A 文章编号:1671-7597(2011)0220170-01
本文希望通过数据挖掘技术,对高校图书馆系统的数据进行研究,能够改进图书馆的管理和服务理念,增强图书馆的特色及个性化服务,在图书馆的信息化转变的过程中,发挥基础作用能够有效地缓解图书馆工作与师生的实际需求脱节的现象。
1、数据挖掘技术
数据挖掘一般包括4个步骤:1)数据准备。数据挖掘是一个过程,而数据准备则为这个过程的核心。数据的准备包括了:获取数据、提高数据质量与数据导出3个方面。2)确定主题。了解研究主题的局限性,选择需要完成的良好的研究主题,确定待研究的合适的数据元素,以及决定如何进行数据抽样。3)读入数据并建立模型。数据挖掘模型应该具有准确性和可理解性。4)理解模型和预测。无论使用哪种模型,模型报告都会告诉你什么信息与特定结果具有关联关系。对于真正的预测而言,预测所得出的都将是事先未知的结果。
常用的数据挖掘算法:1)关联规则方法。两个或两个以上变量的取值之间存在某种规律性,就称为关联。2)分类。分类是通过对样本数据库的数据进行分析,准确找出每个类别的概念描述或者建立分析模型,然后用这个分类规则或决策树模式应用到同类数据库中,是一种有指导的学习。
2、高校图书馆数据分析
高校图书馆的数据一般具有以下特点:1)大量性。隨着高校的不断发展,图书馆馆藏也不断加增,高校图书馆的借阅记录、馆藏数据都达到了海量的级别。2)关联性。在高校图书馆系统所积累的大量借阅记录数据中,由于不同的读者同时借阅多种图书都有自己的原因,这就说明借阅记录数据之间存在有一定的关联性。3)包含信息的潜在性。高校图书馆的大量数据中一定包含有许多非常有价值的信息,比如可能从中分析和挖掘出读者的现在及未来需求,让每个图书馆员都知道自己所拥有的信息被哪些读者所需要。
3、数据挖掘在图书馆个性化服务中应用实例
在数据挖掘的诸多算法中,以关联规则算法、分类算法在图书馆中的应用最多,也最广泛。下面,将以南京铁道职业学院图书馆为例,分析这两类算法在图书馆中的应用。
3.1关联规则算法的应用。
下面以2010年6月15日至17日的读者借阅数据为例,进行关联规则分析。从表1中,我们可以发现在这10次借阅中有6次图书A和B被同时借出,各有4次图书A和B被分别借出。用关联分析法分析读者借阅图书A和B的相关性,就可以得到:在此期间,读者同时借阅了图书A和B的概率是60%。借阅了图书A的读者同时又借阅了图书B的概率是67%等规律。如果我们设阀值为30%,那么,我们可以向借阅了图书A的读者推荐图书B,可以建立图书A和B之间的超链,或者在介绍A时直接向读者推荐B。那么在读者下次借阅时可以根据读者借阅图书种类为读者提供参考意见和相关资料。这样就可以节省用户的大量时间,从而提高服务的质量和效率。此种结果也可以用在读者检索的结果反馈信息中。
使用数据挖掘的探测性分析功能,可以针对图书流通特定问题的分析中,挖掘清楚读者有什么样的借阅需求,并灵活地利用图书引擎获取相关图书信息。通过数据挖掘分析服务可以浏览广泛的图书借阅信息,寻找相关数据并提交数据,为图书馆的个性化服务提供了科学的客观依据。
3.2分类算法的应用
以铁道专业类图书为例:
从图表2中,我们发现,除了U交通类书籍外,TM电工技术类和TU建筑类书的借阅量也很大。这是与学院的铁路及相关专业设置有关。因而,在这个专业书库进行调整库位时,若完全按分类号来排架,TM、TU类书籍排在TB、TH后,这两类书就会排在角落里,很不方便读者寻找图书,也不利于图书的流通。因此,我们打破定势,将TB、TH类书籍挪到后面。这样流通量最大的U、TM、TU三类书籍在图书馆最明显的位置,读者一进馆就能方便找到想要的书籍。这种流通量比较大的书籍,更新速度也比较快,经常会采购新书。因而,在排架时,就需要多预留空位。
4、结论
事实上,数据挖掘技术在高校图书馆系统中的应用还存在很大的障碍。这主要表现在数据完整性的问题,只能掌握读者所借阅图书的数据,无法与读者在校其他部门中的相关联进行整体分析,这限制了挖掘的深度。因此,图书馆应该进一步注重对读者信息库的建设,加强学院各部门间信息共享。虽然数据挖掘在高校图书馆系统中的应用仍存在障碍,但是根据以上分析的数据特点,还是可以看出,在高校图书馆的系统管理中应用数据挖掘技术具有很大的必要性和可行性。
参考文献:
[1]Jiawei Han、Micheline Kamber,数据挖掘概念与技术,北京:机械工业出版社,2007
[2]晓冬荣、黄静,给予均值、方差和偏度的投资组合模糊优化模型,统计与决策,2006(14),P37-38
[3]吕彦红、陈基漓、金弊、阮百尧,数据挖掘在高校图书馆的应用,科技情报开发与经济,2007,17(18)P3-5