论文部分内容阅读
[摘 要]以上海浦东图书馆的自动借还书系统——“Horizon系统”中的借阅记录和读者信息为基础数据来源,采用数据挖掘技术中的关联规则Apriori算法,分析读者的行为模式。
[关键词]读者借阅行为分析,Apriori算法,关联规则
中图分类号:F90 文献标识码:A 文章编号:1009-914X(2017)28-0336-02
1 传统方法研究读者行为分析以及不足
1.1 读者问卷调查方法
问卷调查就是将若干份事先设计好的统一的问题表格,即问卷,通过派遣调查员或通过邮局,送到每一个调查对象手中,由被调查者自行填答问卷,然后由调查员收回仍通过邮局寄回的调查方法。
夏训明在《我校多校区办学格局下师生对图书馆资源与服务的需求调查》文中介绍,对校各个校区师生进行了一次大型的读者问卷调查。通过分析调查结果,找出图书馆工作中存在的问题与不足,提出相应的对策,为改进图书馆服务与管理提供借鉴。
传统的读者问卷调查数据角度,进行较为表面的数据分析。其存在许多问题:其一,问卷制作太过主观直白。问题和答案设置必定带有调查者的主观思想,不能客观反映读者信息情况。而我们通过数据库关联规则探索,能发现许多平时不易发现的情报内容,更有研究价值。其二,答题者的主观性干扰。读者可能答题过程中,有胡乱填写或者带有主观性想法。如调查来图书馆借书频率,是否有不良借阅情况,读者会记错次数或者碍于面子不承认不良借阅。其三,调查人群的片面性。虽然是随机调查问卷,但是人群不一定涵盖常来的读者群。如前来参与调查的人群,其中年幼人群和高龄人群由于年龄限制,可能参加调查的概率就少了许多;忙碌人群虽然经常来图书馆,但是可能没时间填写问卷。其四,调查结果的处理,往往是直接的选项统计报表。只能反映表面的数据情况,深层次的各属性间的内在关联情况,都是这些问卷方法做不到的。
1.2 服务质量与读者行为的分析方法
《高职院校图书馆服务质量与读者行为意愿研究》一文,通过对图书馆服务质量含义的阐述,分析了读者行为的特点以及图书馆服务质量与读者行为意愿的关系,提出了优化图书馆服务的建议。
基于服务于读者行为的分析,涉及读者的满意度问卷调查、提高服务质量、服务补救等角度,探讨如何更好的服务读者,提高读者的借阅兴趣。该角度由于许多都是结合问卷调查得到的结果,其次,提高服务质量虽然是吸引读者借阅的一种方式,但是硬件设施的改善同样也会大幅度提高读者满意度,吸引读者前来借阅书籍。因此单纯从服务读者角度,谈论问题有些片面和主观。
2 基于Apriori算法的读者行为分析
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用找到的频集产生期望的规则,产生只包含集合的项的所有规则。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。以上算法使用递归的方法。
以下基于Apriori算法结合图书馆借阅系统,选取几条读者记录为例,举例说明读者频繁项集的构建,并介绍基于Apriori算法讨论读者行为分析的步骤。
2.1 读者频繁项集的构建方法
假定数据以最小支持度为2,扫描数据库,生成候选1项集:
244013 1,王春宜 1,女 4,湖北省 2,1978 2,青壮年 6,244014 1,杨丽萍 1,244015 1,张亦扬 1,上海市 3,男 3,2006 1,儿童 1,244016 1,刘勋 1,1981 1,244017 1,周润杰 1,1984 2,244021 1,王燕雯 1,山东省 1,1996 1,244022 1,臧东贺 1,吉林省 1,女 4,湖北省 2,1978 2,青壮年 6,上海市 3,男 3,1984 2
2.2 基于Apriori算法的读者行为分析
按照如上方法,依次构造最小支持度为2的读者频繁项集:
1)扫描数据库,生成候选1项集和频繁1项集:
244013 1,王春宜 1,女 4,湖北省 2,1978 2,青壮年 6,244014 1,杨丽萍 1,244015 1,张亦扬 1,上海市 3,男 3,2006 1,儿童 1,244016 1,刘勋 1,1981 1,244017 1,周润杰 1,1984 2,244021 1,王燕雯 1,山东省 1,1996 1,244022 1,臧东贺 1,吉林省 1,女 4,湖北省 2,1978 2,青壮年 6,上海市 3,男 3,1984 2
2)生成候选2项集,扫描数据库计数,比较最小支持度生成频繁2项集:
女,湖北省 2,女,1978 2,女,青壮年 4,女,上海市 0,女,男 0,女,1984 1,湖北省,1978 2,湖北省,青壮年 2,湖北省,上海市 0,湖北省,男 0,湖北省,1984 0,1978,青壮年 2,1978,上海市 0,1978,男 0,1978,1984 0,青壮年,上海市 2,青壯年,男 2,青壮年,1984 2,上海市,男 2,上海市,1984 1,男,1984 1,女,湖北省 2,女,1978 2,女,青壮年 4,湖北省,1978 2,湖北省,青壮年 2,1978,青壮年 2,青壮年,上海市 2,青壮年,男 2,青壮年,1984 2,上海市,男 2
3)生成候选3项集,扫描数据库计数,比较最小支持度生成频繁3项集。
女,湖北省,1978 2,女,湖北省,青壮年 2,女,1978,青壮年 2,湖北省,1978,青壮年 2,青壮年,上海市,男 1,青壮年,上海市,1984 1,青壮年,男,1984 1,女,湖北省,1978 2,女,湖北省,青壮年 2,女,1978,青壮年 2,湖北省,1978,青壮年 2 ………省略
结果:
项集 支持度计数
女,湖北省,1978,青壮年 2
2.3 分析数据
2.3.1 数据的预处理
由horizon系统导出相应的读者信息,包括读者证号、读者姓名、身份证号、馆藏条码、文献名称、中图法条码、借阅日期、不良标记类型、金额(即非正常借阅时产生的逾期费)、应还日期、时间(即日期的具体时刻,于研究内容没有太大意义,舍弃)、实际归还日期;由身份证号再整理出读者的籍贯、出生年份、性别;由中图法条码结合中图法分类,整理出图书类型一栏。
根据读者借阅行为将读者分为三个类型:正常借阅读者、已归还图书并产生逾期费的读者、仍未归还到期图书读者。
2.3.2 数据的关联分析
读取省份统计表,为缩小运算范围,最小支持度设为20。
在实验结果中筛选有意义的统计数据,获得读者基本情况如下:
1)可获得读者省份分布情况信息,如下:
频繁项:上海市,支持度计数:379;
频繁项:江苏省,支持度计数:95;
频繁项:安徽省,支持度计数:79;
频繁项:河南省,支持度计数:53;
频繁项:浙江省,支持度计数:43;
频繁项:山东省,支持度计数:43;
频繁项:江西省,支持度计数:42;
频繁项:湖北省,支持度计数:39;
可知主要读者群体来自上海本地,其次为江苏和安徽。
2)读者年龄段分布情况如下,可知读者相当一部分是青壮年。
频繁项:青壮年,支持度计数:804;
频繁项:儿童,支持度计数:42;
频繁项:中年,支持度计数:83;
频繁项:老年,支持度计数:24;
3)选取支持度计数为10的关联频繁项集,并筛选年龄段与省份关联的数据如下:
频繁项:儿童,上海市 支持度计数:27
频繁项:中年,上海市 支持度计数:35
频繁项:老年,上海市 支持度计数:15
频繁项:青壮年,上海市 支持度计数:302
频繁项:青壮年,江苏省 支持度计数:86
频繁项:青壮年,山东省 支持度计数:40
频繁项:青壮年,河南省 支持度计数:46
频繁项:青壮年,陕西省 支持度计数:14
频繁项:青壮年,四川省 支持度计数:16
频繁项:青壮年,河北省 支持度计数:18
频繁项:青壮年,湖南省 支持度计数:13
频繁项:青壮年,福建省 支持度计数:12
频繁项:青壮年,辽宁省 支持度计数:15
频繁项:青壮年,江西省 支持度计数:39
频繁项:青壮年,黑龙江省 支持度计数:16
频繁项:青壮年,安徽省 支持度计数:68
频繁项:青壮年,浙江省 支持度计数:35
结合人群省份分布和青壮年省份分布可知,除了上海,其他省份读者主要是青壮年为主,分析其可能原因是其他年龄段读者由于地域限制很少来上海,或者即使在上海也很少前来图书馆。
3 展望
基于关联算法的图书馆读者行为分析方法研究,根据数据的种类和数量不同,可以有更多的分析討论。本文的讨论角度主要涉及方面:图书馆读者的基本情况包括省份、年龄段和性别分布的关联情况等。下一步可以进一步深入分析借阅册数、时间、违规情况、读者的详细信息等的关联关系研究。
参考文献
[1] 夏训明.我校多校区办学格局下师生对图书馆资源与服务的需求调查[J].广东药学院学报,2006,22 (5):573-578.
[2] 罗志慧.高职院校图书馆服务质量与读者行为意愿研究[J].云教育.2014(3):21-21.
[关键词]读者借阅行为分析,Apriori算法,关联规则
中图分类号:F90 文献标识码:A 文章编号:1009-914X(2017)28-0336-02
1 传统方法研究读者行为分析以及不足
1.1 读者问卷调查方法
问卷调查就是将若干份事先设计好的统一的问题表格,即问卷,通过派遣调查员或通过邮局,送到每一个调查对象手中,由被调查者自行填答问卷,然后由调查员收回仍通过邮局寄回的调查方法。
夏训明在《我校多校区办学格局下师生对图书馆资源与服务的需求调查》文中介绍,对校各个校区师生进行了一次大型的读者问卷调查。通过分析调查结果,找出图书馆工作中存在的问题与不足,提出相应的对策,为改进图书馆服务与管理提供借鉴。
传统的读者问卷调查数据角度,进行较为表面的数据分析。其存在许多问题:其一,问卷制作太过主观直白。问题和答案设置必定带有调查者的主观思想,不能客观反映读者信息情况。而我们通过数据库关联规则探索,能发现许多平时不易发现的情报内容,更有研究价值。其二,答题者的主观性干扰。读者可能答题过程中,有胡乱填写或者带有主观性想法。如调查来图书馆借书频率,是否有不良借阅情况,读者会记错次数或者碍于面子不承认不良借阅。其三,调查人群的片面性。虽然是随机调查问卷,但是人群不一定涵盖常来的读者群。如前来参与调查的人群,其中年幼人群和高龄人群由于年龄限制,可能参加调查的概率就少了许多;忙碌人群虽然经常来图书馆,但是可能没时间填写问卷。其四,调查结果的处理,往往是直接的选项统计报表。只能反映表面的数据情况,深层次的各属性间的内在关联情况,都是这些问卷方法做不到的。
1.2 服务质量与读者行为的分析方法
《高职院校图书馆服务质量与读者行为意愿研究》一文,通过对图书馆服务质量含义的阐述,分析了读者行为的特点以及图书馆服务质量与读者行为意愿的关系,提出了优化图书馆服务的建议。
基于服务于读者行为的分析,涉及读者的满意度问卷调查、提高服务质量、服务补救等角度,探讨如何更好的服务读者,提高读者的借阅兴趣。该角度由于许多都是结合问卷调查得到的结果,其次,提高服务质量虽然是吸引读者借阅的一种方式,但是硬件设施的改善同样也会大幅度提高读者满意度,吸引读者前来借阅书籍。因此单纯从服务读者角度,谈论问题有些片面和主观。
2 基于Apriori算法的读者行为分析
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用找到的频集产生期望的规则,产生只包含集合的项的所有规则。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。以上算法使用递归的方法。
以下基于Apriori算法结合图书馆借阅系统,选取几条读者记录为例,举例说明读者频繁项集的构建,并介绍基于Apriori算法讨论读者行为分析的步骤。
2.1 读者频繁项集的构建方法
假定数据以最小支持度为2,扫描数据库,生成候选1项集:
244013 1,王春宜 1,女 4,湖北省 2,1978 2,青壮年 6,244014 1,杨丽萍 1,244015 1,张亦扬 1,上海市 3,男 3,2006 1,儿童 1,244016 1,刘勋 1,1981 1,244017 1,周润杰 1,1984 2,244021 1,王燕雯 1,山东省 1,1996 1,244022 1,臧东贺 1,吉林省 1,女 4,湖北省 2,1978 2,青壮年 6,上海市 3,男 3,1984 2
2.2 基于Apriori算法的读者行为分析
按照如上方法,依次构造最小支持度为2的读者频繁项集:
1)扫描数据库,生成候选1项集和频繁1项集:
244013 1,王春宜 1,女 4,湖北省 2,1978 2,青壮年 6,244014 1,杨丽萍 1,244015 1,张亦扬 1,上海市 3,男 3,2006 1,儿童 1,244016 1,刘勋 1,1981 1,244017 1,周润杰 1,1984 2,244021 1,王燕雯 1,山东省 1,1996 1,244022 1,臧东贺 1,吉林省 1,女 4,湖北省 2,1978 2,青壮年 6,上海市 3,男 3,1984 2
2)生成候选2项集,扫描数据库计数,比较最小支持度生成频繁2项集:
女,湖北省 2,女,1978 2,女,青壮年 4,女,上海市 0,女,男 0,女,1984 1,湖北省,1978 2,湖北省,青壮年 2,湖北省,上海市 0,湖北省,男 0,湖北省,1984 0,1978,青壮年 2,1978,上海市 0,1978,男 0,1978,1984 0,青壮年,上海市 2,青壯年,男 2,青壮年,1984 2,上海市,男 2,上海市,1984 1,男,1984 1,女,湖北省 2,女,1978 2,女,青壮年 4,湖北省,1978 2,湖北省,青壮年 2,1978,青壮年 2,青壮年,上海市 2,青壮年,男 2,青壮年,1984 2,上海市,男 2
3)生成候选3项集,扫描数据库计数,比较最小支持度生成频繁3项集。
女,湖北省,1978 2,女,湖北省,青壮年 2,女,1978,青壮年 2,湖北省,1978,青壮年 2,青壮年,上海市,男 1,青壮年,上海市,1984 1,青壮年,男,1984 1,女,湖北省,1978 2,女,湖北省,青壮年 2,女,1978,青壮年 2,湖北省,1978,青壮年 2 ………省略
结果:
项集 支持度计数
女,湖北省,1978,青壮年 2
2.3 分析数据
2.3.1 数据的预处理
由horizon系统导出相应的读者信息,包括读者证号、读者姓名、身份证号、馆藏条码、文献名称、中图法条码、借阅日期、不良标记类型、金额(即非正常借阅时产生的逾期费)、应还日期、时间(即日期的具体时刻,于研究内容没有太大意义,舍弃)、实际归还日期;由身份证号再整理出读者的籍贯、出生年份、性别;由中图法条码结合中图法分类,整理出图书类型一栏。
根据读者借阅行为将读者分为三个类型:正常借阅读者、已归还图书并产生逾期费的读者、仍未归还到期图书读者。
2.3.2 数据的关联分析
读取省份统计表,为缩小运算范围,最小支持度设为20。
在实验结果中筛选有意义的统计数据,获得读者基本情况如下:
1)可获得读者省份分布情况信息,如下:
频繁项:上海市,支持度计数:379;
频繁项:江苏省,支持度计数:95;
频繁项:安徽省,支持度计数:79;
频繁项:河南省,支持度计数:53;
频繁项:浙江省,支持度计数:43;
频繁项:山东省,支持度计数:43;
频繁项:江西省,支持度计数:42;
频繁项:湖北省,支持度计数:39;
可知主要读者群体来自上海本地,其次为江苏和安徽。
2)读者年龄段分布情况如下,可知读者相当一部分是青壮年。
频繁项:青壮年,支持度计数:804;
频繁项:儿童,支持度计数:42;
频繁项:中年,支持度计数:83;
频繁项:老年,支持度计数:24;
3)选取支持度计数为10的关联频繁项集,并筛选年龄段与省份关联的数据如下:
频繁项:儿童,上海市 支持度计数:27
频繁项:中年,上海市 支持度计数:35
频繁项:老年,上海市 支持度计数:15
频繁项:青壮年,上海市 支持度计数:302
频繁项:青壮年,江苏省 支持度计数:86
频繁项:青壮年,山东省 支持度计数:40
频繁项:青壮年,河南省 支持度计数:46
频繁项:青壮年,陕西省 支持度计数:14
频繁项:青壮年,四川省 支持度计数:16
频繁项:青壮年,河北省 支持度计数:18
频繁项:青壮年,湖南省 支持度计数:13
频繁项:青壮年,福建省 支持度计数:12
频繁项:青壮年,辽宁省 支持度计数:15
频繁项:青壮年,江西省 支持度计数:39
频繁项:青壮年,黑龙江省 支持度计数:16
频繁项:青壮年,安徽省 支持度计数:68
频繁项:青壮年,浙江省 支持度计数:35
结合人群省份分布和青壮年省份分布可知,除了上海,其他省份读者主要是青壮年为主,分析其可能原因是其他年龄段读者由于地域限制很少来上海,或者即使在上海也很少前来图书馆。
3 展望
基于关联算法的图书馆读者行为分析方法研究,根据数据的种类和数量不同,可以有更多的分析討论。本文的讨论角度主要涉及方面:图书馆读者的基本情况包括省份、年龄段和性别分布的关联情况等。下一步可以进一步深入分析借阅册数、时间、违规情况、读者的详细信息等的关联关系研究。
参考文献
[1] 夏训明.我校多校区办学格局下师生对图书馆资源与服务的需求调查[J].广东药学院学报,2006,22 (5):573-578.
[2] 罗志慧.高职院校图书馆服务质量与读者行为意愿研究[J].云教育.2014(3):21-21.