论文部分内容阅读
【摘要】本文阐述了图书馆图书资源利用的现状;介绍了数据挖掘及用户关系管理等概念;介绍了以华北电力大学图书馆为样本进行数据挖掘的结果;并且介绍了利用这个分析结果提高图书馆图书资源的利用水平。
【关键词】数据挖掘;数据仓库;用户关系管理
1.引言
前人曾经说过:“如果教师是大学的头脑,那么图书馆是大学的心脏。”这句话体现了图书馆在大学中的重要性。而数据挖掘是知识管理应用的一个方面。其目的是讨论如何在海量的数据中找到有用的信息及规则。这项技术被广泛应用于商业、金融、医学、教育等领域。比如:通过对病历数据的分析可以找到病人容易患哪种疾病以及有什么健康方面的风险和缺陷等信息。这项技术也可以用在图书馆图书资源服务方面,如:从图书馆的借阅数据库中了解读者的借阅习惯等信息。
本文所介绍的样本是华北电力大学图书馆的读者借阅数据库。在没有使用数据挖掘技术之前,华北电力大学图书馆有藏书1125330册藏书(截至到2009年4月)。在2009年4月底我校应教育部的要求做了一次资产清查工作。在这次清查中,我校图书馆也对图书利用率也进行了调查;发现在2007年8月到2009年4月这个时间段里,只有394067册图书在流通,其它的近65%的图书几乎没有进入流通领域。为了提高图书资源的利用水平,掌握读者的借阅习惯是十分必要的。
华北电力大学原来是一所纯工科大学,在新世纪它转换为一所文、理、工科兼备的大学。学校的转型使得校图书馆的藏书结构有所变化;读者的学科覆盖面广了,图书的利用也发生了变化。这次的数据挖掘为了照顾覆盖面的问题,选择了大二、大三和研一的学生从2010年6月到2011年3月的228347个数据库借阅记录;而这两个年级的学生总数是7235人。
为了达到数据挖掘的目的,我们引入了商业管理中的用户关系管理模式。我们把图书馆当作企业,读者当作用户,图书当作商品。本文将介绍企业经理是如何了解用户的需求、上市用户需要的产品的方法。在这里也引入了数据仓库来载入数据,建立图书馆借阅数据的数据仓库,使用“在线分析方法”(OLAP)的数据挖掘技术来对建立好的数据仓库进行挖掘。通过这项技术我们可以更加详细的了解读者的需求和习惯,给图书馆管理人员提供新图书资源的参考决策,制订新的用户服务策略。
2.数据挖掘方法
本文介绍的数据挖掘是基于从2010年6月到2011年3月的228347个数据库借阅记录,这里包括7235个读者信息和82459个书目信息,以及相关的数据文件。
华北电力大学图书馆使用了南京“汇文文献管理系统”;它的主数据库是Oracle 9.0数据库;主数据库的服务器采用了Win-dows 2000 Advance Server SP4操作系统。在本文介绍的数据挖掘中把主数据服务器中的数据库导入到另外一个服务器中,这样的安排可以避免主数据服务器在执行数据挖掘操作中负载比较重,这也提高了执行数据挖掘操作的效率。下面的图表示了如何建立数据仓库和执行数据挖掘算法以及发现有用信息和规则:
图1 数据挖掘的总体说明
总体上讲,读者借阅数据库是一个比较复杂的数据库。本文介绍的借阅数据库的容量将近8.5G。其中包括几百个相关的数据表,包含教师和学生的借阅信息以及书目信息。下面介绍建立数据仓库和数据挖掘的步骤:
(1)数据收集。首先和图书馆流通管理员进行交流,确定读者信息和借阅的时间段。然后从借阅数据库中近百个表中选择有用的数据。
(2)数据聚合。这个步骤是将选择好的数据进行转换,把它们转换成相同格式和尺寸的数据。这样做的好处是可以避免在未来的数据分析中发生不必要的错误。然后把数据载入数据仓库。
(3)载入数据仓库。在这里我们在分析用的数据库服务器上安装了Oracle 9.0和Microsoft SQL Server 2000两种数据库。目的是为了使用Microsoft SQL Server 2000中的DTS工具(数据传输服务)来进行数据仓库的构建。把数据从Oracle数据库导入Microsoft SQL Server 2000数据库;然后使用DTS工具构建数据仓库。
(4)数据挖掘。如上文介绍,本文采用的数据挖掘的方法是OLAP(在线分析方法)。它提供了从数据仓库中即时的查询和分析信息。OLAP具备精简数据、放大、轮换、复杂计算以及制作模型等特点。OLAP将图书馆借阅数据库的海量数据构造成三个维度:读者、书目、时间。读者就是样本中三个年级的学生。书目就是读者所借阅过的书目。时间就是从2007年6月到2008年2月这个分析用的时间段。并且使用Microsoft OLE DB技术连接数据库。最后,OLAP产生的Excel表作为分析的载体和结果。
3.分析结果及应用
本小节将介绍数据挖掘的结果。主要有下列结果:
(1)借阅人次情况;
(2)男生和女生借阅书目种类的覆盖情况;
(3)所有种类的书目在每个阶段的借阅增长率的情况。
表1 借阅人次情况表
年级 大二 大三 研一
借阅人次 男 女 总体 男 女 总体 男 女 总体
4 5 9 4 7 11 6 7 13
表2 曾经借阅过图书的读者的比例表
年级 大二 大三 研一
百分比 73.3% 84.9% 98.2%
从表1我们可以看出研究生的图书利用情况比本科生要高。女生比男生的图书利用率要高。这说明研究生对图书的兴趣比本科生要高;女生对图书的兴趣比男生要高。从表2我们可以看出,研究生借书的情况要远远高于本科生,而且大学三年级的读者比大学二年级的学生利用图书的情况要好。这从一个侧面反应了研究生对图书在学习中作用的认识要高于本科生;而且大学三年级的课业比大学二年级的重,对图书资料的需要也比较高。在这里我们也看到大学二年级的读者利用图书的情况不是很好。图书馆方面采用了在平面和网络上举办“好书推荐”活动;发布纸质和网络调查问卷的方式重点收集大学二年级读者的反馈意见。经过三个月的努力。在2011年7月,这个比例提高到81.5%,取得了一定的效果。 图2 男生和女生借阅书目种类的覆盖情况图
图3 大三和研一两个年级借阅书目种类的覆盖情况图
图2列出了我校图书馆馆藏的主要的图书种类。从图2我们可以看出工程技术、语言文学和艺术是女生借阅的主要书籍;而男生对自然科学的兴趣明显比女生要高;而思想政治类书籍无论是男生还是女生几乎没有什么人借阅。这样图书馆的管理人员可以从性别差异上了解不同性别的读者有不同的喜好。我校虽然已经从纯工科大学转型为综合性大学,但是工科大学的历史背景和影响是比较深远的。这从上面两个图上可以反映出来。由于上述原因,我校男生的数量比女生多。通过图2我校图书馆调整了图书采购计划,加强了自然科学的采购比例;而且配合2011年夏季学校举办的学校科普月活动的举办,搞了相应的图书展览和推广工作。通过这些努力,图书的流通量有显著提高。而从图3中我们可以看到和图2相同的利用的趋势。而研究的对象从性别差异转移到年级差异上。从图3我们可以看到由于我校研究生的艺术活动比较丰富。他们有固定的艺术活动;艺术活动的频率比本科生要频繁。这使得他们对艺术方面的书籍比本科生多。针对这个需求,我校图书馆也加大了艺术方面的采购力度,部分满足了研究生的需求,但是由于图书采购的滞后的特点,图书采购结构调整的效果不可能立竿见影,一部分图书仍然没有到位;但是也部分缓解了研究生对这种图书的需求。图书利用率也提高了。
图4 所有种类的书目在每个阶段的借阅增长率的情况
图4中说明了图书借阅的增长率的情况。这是从时间上来进行分析有用的信息。具体的分析公式是(A-B)/C;公式里的A是本阶段读者借阅书籍的总数;B是上一个阶段读者借阅书籍的总数;C是这八个月读者借阅书籍的总数。从这个图上我们看到社会科学、工程技术和语言文学类型的书籍借阅增长率相对比较高。但是只有思想政治和历史地理这两个类型的图书在后一个阶段有所增加,其它类型的图书在后一个阶段都有一定的下降。这和我校在2011年元旦左右举办了知识竞赛以及一部分学生参加了党课学习有一定的关系。图书馆方面在自己的网站上发布了新书推荐栏目以及图书选择导航网页。通过这样的服务,增加了图书的利用和流通水平。
在这里我们也发现了研究生为什么对艺术类书籍的需求比较高的原因之一是一本《西方美术》的书在研究生借阅次数最多;这和我校研究生学生会建立了一个油画爱好者协会的学生组织。在研究生中间有这个方面的需求。图书馆方面也增加了这本书的复本收藏量来满足这个方面的需求。
因为图书馆承担了教育和提供资料信息的职责,所以如何提高图书资源的利用率是改善读者和图书馆之间的关系是很有必要的。在图书馆的运营中提高图书资源的利用率和增加读者的满意度是十分重要的。
4.结论
高效率的图书馆图书资源利用率取决于挖掘读者的阅读兴趣。通过这个项目的研究,我们在图书馆管理领域引进了商业销售的用户关系管理模式,并结合图书馆的管理特征把用户关系管理改造成读者关系管理;并且从中找出读者的借阅习惯。然后把这个信息反馈到图书管理员那里,以便做相应的宣传、推荐、采购调整等行为来适应读者的阅读习惯。在这个项目的研究中,我们发现了我们学校的学生读者比较喜欢文学、语言学、艺术、工程技术、社会科学等学科的书籍;而对思想政治、历史地理等学科很少有人来阅读。通过这个项目的研究,我们动态掌握了读者的阅读习惯,灵活调整管理策略,以达到提高图书馆图书资源的利用水平。
参考文献
[1]朱立红.高校图书馆的数据挖掘技术应用与用户研究[J].图书馆杂志,2008(6):39-42.
[2]J.Tsao.Apply Data Mining Techniques to Enable Personalized Services and Management on Digital Library[D].Master diss.,Nan Hua University,2003.
[3]IBM.IBM OLAP Spread Sheet Add-in User Guide[M].IBM Corp,2002.
[4]Oracle OLAP[EB/OL].[2008-2-17].http://www.oracle.com/technology/global/cn/products/bi/olap/olap.html.
【关键词】数据挖掘;数据仓库;用户关系管理
1.引言
前人曾经说过:“如果教师是大学的头脑,那么图书馆是大学的心脏。”这句话体现了图书馆在大学中的重要性。而数据挖掘是知识管理应用的一个方面。其目的是讨论如何在海量的数据中找到有用的信息及规则。这项技术被广泛应用于商业、金融、医学、教育等领域。比如:通过对病历数据的分析可以找到病人容易患哪种疾病以及有什么健康方面的风险和缺陷等信息。这项技术也可以用在图书馆图书资源服务方面,如:从图书馆的借阅数据库中了解读者的借阅习惯等信息。
本文所介绍的样本是华北电力大学图书馆的读者借阅数据库。在没有使用数据挖掘技术之前,华北电力大学图书馆有藏书1125330册藏书(截至到2009年4月)。在2009年4月底我校应教育部的要求做了一次资产清查工作。在这次清查中,我校图书馆也对图书利用率也进行了调查;发现在2007年8月到2009年4月这个时间段里,只有394067册图书在流通,其它的近65%的图书几乎没有进入流通领域。为了提高图书资源的利用水平,掌握读者的借阅习惯是十分必要的。
华北电力大学原来是一所纯工科大学,在新世纪它转换为一所文、理、工科兼备的大学。学校的转型使得校图书馆的藏书结构有所变化;读者的学科覆盖面广了,图书的利用也发生了变化。这次的数据挖掘为了照顾覆盖面的问题,选择了大二、大三和研一的学生从2010年6月到2011年3月的228347个数据库借阅记录;而这两个年级的学生总数是7235人。
为了达到数据挖掘的目的,我们引入了商业管理中的用户关系管理模式。我们把图书馆当作企业,读者当作用户,图书当作商品。本文将介绍企业经理是如何了解用户的需求、上市用户需要的产品的方法。在这里也引入了数据仓库来载入数据,建立图书馆借阅数据的数据仓库,使用“在线分析方法”(OLAP)的数据挖掘技术来对建立好的数据仓库进行挖掘。通过这项技术我们可以更加详细的了解读者的需求和习惯,给图书馆管理人员提供新图书资源的参考决策,制订新的用户服务策略。
2.数据挖掘方法
本文介绍的数据挖掘是基于从2010年6月到2011年3月的228347个数据库借阅记录,这里包括7235个读者信息和82459个书目信息,以及相关的数据文件。
华北电力大学图书馆使用了南京“汇文文献管理系统”;它的主数据库是Oracle 9.0数据库;主数据库的服务器采用了Win-dows 2000 Advance Server SP4操作系统。在本文介绍的数据挖掘中把主数据服务器中的数据库导入到另外一个服务器中,这样的安排可以避免主数据服务器在执行数据挖掘操作中负载比较重,这也提高了执行数据挖掘操作的效率。下面的图表示了如何建立数据仓库和执行数据挖掘算法以及发现有用信息和规则:
图1 数据挖掘的总体说明
总体上讲,读者借阅数据库是一个比较复杂的数据库。本文介绍的借阅数据库的容量将近8.5G。其中包括几百个相关的数据表,包含教师和学生的借阅信息以及书目信息。下面介绍建立数据仓库和数据挖掘的步骤:
(1)数据收集。首先和图书馆流通管理员进行交流,确定读者信息和借阅的时间段。然后从借阅数据库中近百个表中选择有用的数据。
(2)数据聚合。这个步骤是将选择好的数据进行转换,把它们转换成相同格式和尺寸的数据。这样做的好处是可以避免在未来的数据分析中发生不必要的错误。然后把数据载入数据仓库。
(3)载入数据仓库。在这里我们在分析用的数据库服务器上安装了Oracle 9.0和Microsoft SQL Server 2000两种数据库。目的是为了使用Microsoft SQL Server 2000中的DTS工具(数据传输服务)来进行数据仓库的构建。把数据从Oracle数据库导入Microsoft SQL Server 2000数据库;然后使用DTS工具构建数据仓库。
(4)数据挖掘。如上文介绍,本文采用的数据挖掘的方法是OLAP(在线分析方法)。它提供了从数据仓库中即时的查询和分析信息。OLAP具备精简数据、放大、轮换、复杂计算以及制作模型等特点。OLAP将图书馆借阅数据库的海量数据构造成三个维度:读者、书目、时间。读者就是样本中三个年级的学生。书目就是读者所借阅过的书目。时间就是从2007年6月到2008年2月这个分析用的时间段。并且使用Microsoft OLE DB技术连接数据库。最后,OLAP产生的Excel表作为分析的载体和结果。
3.分析结果及应用
本小节将介绍数据挖掘的结果。主要有下列结果:
(1)借阅人次情况;
(2)男生和女生借阅书目种类的覆盖情况;
(3)所有种类的书目在每个阶段的借阅增长率的情况。
表1 借阅人次情况表
年级 大二 大三 研一
借阅人次 男 女 总体 男 女 总体 男 女 总体
4 5 9 4 7 11 6 7 13
表2 曾经借阅过图书的读者的比例表
年级 大二 大三 研一
百分比 73.3% 84.9% 98.2%
从表1我们可以看出研究生的图书利用情况比本科生要高。女生比男生的图书利用率要高。这说明研究生对图书的兴趣比本科生要高;女生对图书的兴趣比男生要高。从表2我们可以看出,研究生借书的情况要远远高于本科生,而且大学三年级的读者比大学二年级的学生利用图书的情况要好。这从一个侧面反应了研究生对图书在学习中作用的认识要高于本科生;而且大学三年级的课业比大学二年级的重,对图书资料的需要也比较高。在这里我们也看到大学二年级的读者利用图书的情况不是很好。图书馆方面采用了在平面和网络上举办“好书推荐”活动;发布纸质和网络调查问卷的方式重点收集大学二年级读者的反馈意见。经过三个月的努力。在2011年7月,这个比例提高到81.5%,取得了一定的效果。 图2 男生和女生借阅书目种类的覆盖情况图
图3 大三和研一两个年级借阅书目种类的覆盖情况图
图2列出了我校图书馆馆藏的主要的图书种类。从图2我们可以看出工程技术、语言文学和艺术是女生借阅的主要书籍;而男生对自然科学的兴趣明显比女生要高;而思想政治类书籍无论是男生还是女生几乎没有什么人借阅。这样图书馆的管理人员可以从性别差异上了解不同性别的读者有不同的喜好。我校虽然已经从纯工科大学转型为综合性大学,但是工科大学的历史背景和影响是比较深远的。这从上面两个图上可以反映出来。由于上述原因,我校男生的数量比女生多。通过图2我校图书馆调整了图书采购计划,加强了自然科学的采购比例;而且配合2011年夏季学校举办的学校科普月活动的举办,搞了相应的图书展览和推广工作。通过这些努力,图书的流通量有显著提高。而从图3中我们可以看到和图2相同的利用的趋势。而研究的对象从性别差异转移到年级差异上。从图3我们可以看到由于我校研究生的艺术活动比较丰富。他们有固定的艺术活动;艺术活动的频率比本科生要频繁。这使得他们对艺术方面的书籍比本科生多。针对这个需求,我校图书馆也加大了艺术方面的采购力度,部分满足了研究生的需求,但是由于图书采购的滞后的特点,图书采购结构调整的效果不可能立竿见影,一部分图书仍然没有到位;但是也部分缓解了研究生对这种图书的需求。图书利用率也提高了。
图4 所有种类的书目在每个阶段的借阅增长率的情况
图4中说明了图书借阅的增长率的情况。这是从时间上来进行分析有用的信息。具体的分析公式是(A-B)/C;公式里的A是本阶段读者借阅书籍的总数;B是上一个阶段读者借阅书籍的总数;C是这八个月读者借阅书籍的总数。从这个图上我们看到社会科学、工程技术和语言文学类型的书籍借阅增长率相对比较高。但是只有思想政治和历史地理这两个类型的图书在后一个阶段有所增加,其它类型的图书在后一个阶段都有一定的下降。这和我校在2011年元旦左右举办了知识竞赛以及一部分学生参加了党课学习有一定的关系。图书馆方面在自己的网站上发布了新书推荐栏目以及图书选择导航网页。通过这样的服务,增加了图书的利用和流通水平。
在这里我们也发现了研究生为什么对艺术类书籍的需求比较高的原因之一是一本《西方美术》的书在研究生借阅次数最多;这和我校研究生学生会建立了一个油画爱好者协会的学生组织。在研究生中间有这个方面的需求。图书馆方面也增加了这本书的复本收藏量来满足这个方面的需求。
因为图书馆承担了教育和提供资料信息的职责,所以如何提高图书资源的利用率是改善读者和图书馆之间的关系是很有必要的。在图书馆的运营中提高图书资源的利用率和增加读者的满意度是十分重要的。
4.结论
高效率的图书馆图书资源利用率取决于挖掘读者的阅读兴趣。通过这个项目的研究,我们在图书馆管理领域引进了商业销售的用户关系管理模式,并结合图书馆的管理特征把用户关系管理改造成读者关系管理;并且从中找出读者的借阅习惯。然后把这个信息反馈到图书管理员那里,以便做相应的宣传、推荐、采购调整等行为来适应读者的阅读习惯。在这个项目的研究中,我们发现了我们学校的学生读者比较喜欢文学、语言学、艺术、工程技术、社会科学等学科的书籍;而对思想政治、历史地理等学科很少有人来阅读。通过这个项目的研究,我们动态掌握了读者的阅读习惯,灵活调整管理策略,以达到提高图书馆图书资源的利用水平。
参考文献
[1]朱立红.高校图书馆的数据挖掘技术应用与用户研究[J].图书馆杂志,2008(6):39-42.
[2]J.Tsao.Apply Data Mining Techniques to Enable Personalized Services and Management on Digital Library[D].Master diss.,Nan Hua University,2003.
[3]IBM.IBM OLAP Spread Sheet Add-in User Guide[M].IBM Corp,2002.
[4]Oracle OLAP[EB/OL].[2008-2-17].http://www.oracle.com/technology/global/cn/products/bi/olap/olap.html.