浅谈数据挖掘与高校图书馆服务水平

来源 :硅谷 | 被引量 : 0次 | 上传用户:g0454162200804
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:数据挖掘就是从大量数据中提取有效的、潜在可用的、最终可被理解的模式的过程。以南京铁道职业技术学院图书馆为例,提出利用数据挖掘技术来提高高校图书服务水平的想法。
  关键词:数据挖掘;高校图书馆
  中图分类号:NT 文献标识码:A 文章编号:1671-7597(2011)0220170-01
  
   本文希望通过数据挖掘技术,对高校图书馆系统的数据进行研究,能够改进图书馆的管理和服务理念,增强图书馆的特色及个性化服务,在图书馆的信息化转变的过程中,发挥基础作用能够有效地缓解图书馆工作与师生的实际需求脱节的现象。
  
  1、数据挖掘技术
  
  数据挖掘一般包括4个步骤:1)数据准备。数据挖掘是一个过程,而数据准备则为这个过程的核心。数据的准备包括了:获取数据、提高数据质量与数据导出3个方面。2)确定主题。了解研究主题的局限性,选择需要完成的良好的研究主题,确定待研究的合适的数据元素,以及决定如何进行数据抽样。3)读入数据并建立模型。数据挖掘模型应该具有准确性和可理解性。4)理解模型和预测。无论使用哪种模型,模型报告都会告诉你什么信息与特定结果具有关联关系。对于真正的预测而言,预测所得出的都将是事先未知的结果。
  常用的数据挖掘算法:1)关联规则方法。两个或两个以上变量的取值之间存在某种规律性,就称为关联。2)分类。分类是通过对样本数据库的数据进行分析,准确找出每个类别的概念描述或者建立分析模型,然后用这个分类规则或决策树模式应用到同类数据库中,是一种有指导的学习。
  
  2、高校图书馆数据分析
  
  高校图书馆的数据一般具有以下特点:1)大量性。隨着高校的不断发展,图书馆馆藏也不断加增,高校图书馆的借阅记录、馆藏数据都达到了海量的级别。2)关联性。在高校图书馆系统所积累的大量借阅记录数据中,由于不同的读者同时借阅多种图书都有自己的原因,这就说明借阅记录数据之间存在有一定的关联性。3)包含信息的潜在性。高校图书馆的大量数据中一定包含有许多非常有价值的信息,比如可能从中分析和挖掘出读者的现在及未来需求,让每个图书馆员都知道自己所拥有的信息被哪些读者所需要。
  
  3、数据挖掘在图书馆个性化服务中应用实例
  
  在数据挖掘的诸多算法中,以关联规则算法、分类算法在图书馆中的应用最多,也最广泛。下面,将以南京铁道职业学院图书馆为例,分析这两类算法在图书馆中的应用。
  3.1关联规则算法的应用。
  下面以2010年6月15日至17日的读者借阅数据为例,进行关联规则分析。从表1中,我们可以发现在这10次借阅中有6次图书A和B被同时借出,各有4次图书A和B被分别借出。用关联分析法分析读者借阅图书A和B的相关性,就可以得到:在此期间,读者同时借阅了图书A和B的概率是60%。借阅了图书A的读者同时又借阅了图书B的概率是67%等规律。如果我们设阀值为30%,那么,我们可以向借阅了图书A的读者推荐图书B,可以建立图书A和B之间的超链,或者在介绍A时直接向读者推荐B。那么在读者下次借阅时可以根据读者借阅图书种类为读者提供参考意见和相关资料。这样就可以节省用户的大量时间,从而提高服务的质量和效率。此种结果也可以用在读者检索的结果反馈信息中。
  使用数据挖掘的探测性分析功能,可以针对图书流通特定问题的分析中,挖掘清楚读者有什么样的借阅需求,并灵活地利用图书引擎获取相关图书信息。通过数据挖掘分析服务可以浏览广泛的图书借阅信息,寻找相关数据并提交数据,为图书馆的个性化服务提供了科学的客观依据。
  3.2分类算法的应用
  以铁道专业类图书为例:
  从图表2中,我们发现,除了U交通类书籍外,TM电工技术类和TU建筑类书的借阅量也很大。这是与学院的铁路及相关专业设置有关。因而,在这个专业书库进行调整库位时,若完全按分类号来排架,TM、TU类书籍排在TB、TH后,这两类书就会排在角落里,很不方便读者寻找图书,也不利于图书的流通。因此,我们打破定势,将TB、TH类书籍挪到后面。这样流通量最大的U、TM、TU三类书籍在图书馆最明显的位置,读者一进馆就能方便找到想要的书籍。这种流通量比较大的书籍,更新速度也比较快,经常会采购新书。因而,在排架时,就需要多预留空位。
  
  4、结论
  
  事实上,数据挖掘技术在高校图书馆系统中的应用还存在很大的障碍。这主要表现在数据完整性的问题,只能掌握读者所借阅图书的数据,无法与读者在校其他部门中的相关联进行整体分析,这限制了挖掘的深度。因此,图书馆应该进一步注重对读者信息库的建设,加强学院各部门间信息共享。虽然数据挖掘在高校图书馆系统中的应用仍存在障碍,但是根据以上分析的数据特点,还是可以看出,在高校图书馆的系统管理中应用数据挖掘技术具有很大的必要性和可行性。
  
  参考文献:
  [1]Jiawei Han、Micheline Kamber,数据挖掘概念与技术,北京:机械工业出版社,2007
  [2]晓冬荣、黄静,给予均值、方差和偏度的投资组合模糊优化模型,统计与决策,2006(14),P37-38
  [3]吕彦红、陈基漓、金弊、阮百尧,数据挖掘在高校图书馆的应用,科技情报开发与经济,2007,17(18)P3-5
其他文献
期刊
对32个不同基因型大豆的幼胚进行不定胚诱导,30 d时统计分析初生胚诱导率、次生胚诱导率和诱导效率,经综合比较得出适合体细胞诱导不定胚的4种基因型为L155、垦丰16、绥农25
摘要:主要介绍红花尔基水利枢纽坝体填筑施工方法,砂砾石坝壳、壤土心墙、心墙过渡层、土石围堰堰体以及其它填筑工程的施工程序。  关键词:红花尔基水利枢纽;土石方填筑  中图分类号:TU 文献标识码:A 文章编号:1671-7597(2011)0220158-01    1、概述    红花尔基水利枢纽工程位于海拉河一级支流伊敏河中游,枢纽下游距海拉尔区120km,在鄂温克旗红花尔基镇东北2.0km。
以41个北方春大豆品种为材料,研究了不同基因型大豆体细胞胚的诱导率。结果表明:不同基因型大豆的体细胞胚发生率有显著差异,在供试品种中,垦丰23的体细胞胚胎发生率(99.7%)
利用甲基磺酸乙酯(ethyl methane sulfonate,EMS)、叠氮化钠(sodium azide,NaN3)和N离子束分别诱变处理大豆品种“冀黄13”的种子。经M2选择,M3、M4代验证,共筛选出茎器官突
摘要:随着科技的不断发展近年来在数据库的家族中出现一种新型数据库,嵌入式移动数据库,它除具有关于数据库的主要功能外,还根据嵌入式系统和移动计算的特点,在数据库的体系结构、功能设置、应用开发等方面也独具特色,所适用的范围越来越广泛,为增强系统的性能和提高开发效率,就关于嵌入式移动数据库系统的思考进行浅谈。  关键词:嵌入式;移动数据库;思考  中图分类号:TN99 文献标识码:A 文章编号:1671
以3个早熟菜用大豆和1个晚熟菜用大豆品种为试材,探讨了始花期追施尿素对菜用大豆农艺性状和产量的影响,旨在为提高菜用大豆的产量提供理论依据。结果表明,早熟菜用大豆品种
摘要:精准的负荷预测是电力系统运转的基础条件。为提高短期电力负荷预测精度,必须做好原始数据的预处理、随机因素(冲击负荷)的捕捉、有关因子的预测与量化、预测模式与算法的适当选择以及预测结果的有效修正等五个方面。  关键词:电力负荷;负荷预测;精度  中图分类号:TM734 文献标识码:A 文章编号:1671-7597(2011)0220168-01    所谓电力负荷预测,就是在充分考虑一些重要的系
摘要:泥石流是最常见的地质灾害类型之一,随着全球气候的不断恶化,辽宁地区的强降雨日数也逐年增多,泥石流灾害也时有发生。尤其是各大、中型矿山的排土(岩)场,松散堆积物丰富,极易形成滑坡和坡面泥石流灾害。概要地总结辽阳市弓长岭区莰沟西口泥石流灾害特征,将其划分为形成区、流通区和堆积区三个部分,并对其形成条件和形成机制做初步分析。  关键词:泥石流;灾害;地形地貌;松散碎屑物;降水  中图分类号:F2