论文部分内容阅读
摘 要 论文以CNKI为数据来源,对”十二五”期间(2011-2015年)我国图书馆界大数据研究领域发表的期刊论文进行文献计量分析,从描述性特征和内容特征两个角度来探测我国图书馆界大数据的研究现状和讨论热点,结果显示,该领域研究成果呈持续增长趋势,研究视角多样化,但研究机构分散,核心期刊载文量低,“高校图书馆”“信息服务”“数字图书馆”“数据挖掘”是目前的研究热点,研究内容主要涉及“服务”“技术”“资源”“影响和应用”四个领域,偏重理论探讨,缺少实践和应用研究。
关键词 “十二五” 大数据 图书馆 因子分析 层次聚类 多维尺度分析
分类号 G254.97
DOI 10.16810/j.cnki.1672-514X.2017.12.016
Abstract Adopting the bibliometrics analysis, and taking the CNKI as the investigation and statistics resource, this paper makes the statistics and analysis on descriptive features and content features of big data research of the library in China in the 12th five-year period(2011-2015). The research results in this field show a continuous growth trend, the research perspective is diversified, but the research institutions are scattered, and the number of papers in core journals is low. “School library” “information service” “digital library” “data mining” are the research hotspot about big data research of the library in China at present. The main contents involve four fields: “service” “technology” “resource” “influence and application” , which emphasizes on the theoretical discussion and lack of practice and application.
Keywords The 12th five-year. Library. Big data. Factor analysis. Hierarchical clustering(HC). Multidimensional scaling analysis (MDSA).
0 引言
隨着众多社交媒体的迅速崛起,以及互联网、物联网、云计算等技术的的兴起,信息爆炸时代来临,作为基础的“数据”越来越受到重视,其在社会经济发展中所展现的预测能力、决策支持能力日益明显,全球知名咨询公司麦肯锡在2011年5月发布的《Big Data: the Next Frontier for Innovation》[1]报告中首次使用了 “大数据”这一概念,引起了产业界、科技界和政府部门的高度关注。我们有理由相信,对大数据的研究和应用将会如火如荼开展,进而渗透到社会各行各业。随着大数据时代的到来,大数据也将渗透到图书馆的管理、运行、服务与变革等环节,成为影响图书馆基础建设、服务模式与内容变革、读者个性化服务保障以及可持续发展的重要因素。
本文基于国内图书馆界大数据研究的相关文献数据,对大数据研究展开调研,以期了解目前我国图书馆界大数据研究现状,为今后的研究提供更多依据和参考。通过对文献数据进行计量分析和内容分析,包括文献的年度分布、期刊分布、作者分布、机构分布、区域分布、关键词分布,并利用聚类分析法、因子分析法和多维尺度分析法(MDSA) 对文献研究主题进行分析评价,以期发现目前我国图书馆界大数据研究的重点和不足,为后续研究指明方向。
1 近期相关研究
作为继云计算之后的新兴信息技术之一,我国图书馆界对大数据研究已悄然兴起,并迅速刮起一阵旋风,大数据日益成为学术界关注的热点。学者们纷纷从不同视角对图书馆大数据问题进行了比较系统的研究。
大多数研究者认为,大数据给图书馆带来良好机遇,同时图书馆也面临挑战[2-4]。大部分学者还研究了大数据与图书馆服务的问题。从图书馆服务创新[5]、图书馆用户服务保障[6]、构建个性化服务平台[7]等方面探讨了大数据对图书馆服务方式的影响以及服务模式的改变。还有部分学者对图书馆大数据应用进行了一些研究。张毅等探索了现阶段图书馆基于大数据开展管理与服务工作的实践方案[8]。江云等在借鉴国外经验的基础上构建了我国图书馆推进大数据的基本框架[2]。此外,对数字图书馆研究也逐步开展,如数字图书馆异构数据集成[9]、数据库缓存模型设计[10]、大数字图书馆安全威胁[11]等也受到关注。
除了以上的主要研究内容以外,目前我国图书馆大数据研究涉及的主题还有读者隐私保护[12]、利用大数据分析法提高图书馆读者决策采购(PDA)效能[13]、图书馆与档案馆深度融合发展[14]、国外推进大数据的应用实践介绍[15]以及国内图书馆大数据背景下的有关实践尝试[16]等。
综上所述,我国图书馆界对大数据的研究视角呈现多样化的特征,但总体研究不够深入,重理论、轻技术、轻实践,图书馆利用大数据的方式、技术实现、服务模式的改进与创新、大数据应用策略等问题的研究还不够深入,图书馆大数据应用的实证研究几乎没有。 2 数据的来源和处理方法
本文以CNKI(中国知网)的中国学术期刊网络出版总库为数据源,调查文献的范围为“图书馆大数据研究”,笔者于2016年4月24日分别使用“图书馆*大数据”为检索词,以“篇名”为检索项,时间跨度为2011-2015,共检索出相关记录608条,删除会议通知、会议成功举办公告、序、会议评论等共9条,最后得到匹配文献599篇。
本文拟从描述性特征和内容性特征两个角度探测我国图书馆界大数据研究的总体状况和讨论热点。对于前者,笔者主要采用数据泛化思想,即根据实际情况,将研究论文的各著录项信息从细节数据转化为具有一定粒度的轻度综合性数据,进而采用数理统计方法,探测该领域研究论文在年度、地区、期刊以及关键词等方面的特征分布;对于后者,本文则基于论文题名采用K-means聚类方法对现有研究进行分组,进而采用因子分析探测各组研究的主要成分以及利用层次聚类(HCA) 和多维尺度分析(MDSA) 讨论各组的研究侧重点和薄弱环节。
3 描述性特征的分析和评价
3.1 年度分布
通过对文献年代统计分析,有助于把握该研究领域的理论水平和发展速度。本文搜集整理“十二五”期间(2011-2015) 我国图书馆界关于大数据研究的文献,并根据文献数量绘制了图1。
从图1可以看出,2011-2015年间,我国图书馆界关于大数据的研究呈跳跃式发展,2011年该领域的研究还处于空白阶段,随着美国奥巴马政府在2012年2月宣布推出“大数据的研究和发展计划”,又于3月29日在美国白宫网站发布《大数据研究和发展倡议》(Big Data Research and Development Initiative)[17],图书馆界渐渐开始了大数据研究。2012年该研究还处于起步阶段,年发文量仅4篇,2013年呈现不断上升趋势,国内关于大数据的研究正逐步升温,2014年出现了跳跃式发展,年发文量激增到219篇,大约是2013年年发文量的4.5倍。2015年8月31日,国务院印发了《促进大数据发展行动纲要》,系统部署大数据发展工作,随之,国内图书馆界关于大数据的研究也进入白热化,2015年的年发文量高达327篇,我国图书馆界刮起大数据研究的旋风,大数据已成为学术界关注的热点。
3.2 期刊分布
2011-2015年,共有278种期刊载有图书馆大数据研究方面的论文,总载文比为2.15,比较低。
599篇论文在278种期刊中的具体分布情况如图2所示,图例中仅列出了发文量不小于5的期刊。载文量为1篇的期刊有252种。载文量在5-10篇的期刊有14种,共载有论文95篇。载文量在11-20篇的期刊有6种,共载有论文74篇。载文量在21-30篇的期刊有3种,总载有论文81篇。载文量在30篇以上的期刊有3种,共载有论文97篇,其中载文量最高的是《农业图书情报学刊》,共35篇,其次是《河南图书馆学刊》和《科技情报开发与经济》,两者都是31篇。说明目前我国图书馆界大数据研究分散程度明显,研究热点集中较少。
笔者进一步统计了该领域研究论文的CSSCI期刊收录情况,599篇论文中被CSSCI期刊收录的仅80篇,占论文总数的13.4%。
图3揭示了具体分布情况,载文量最高的是《图书馆工作与研究》,共16篇,其次是《图书与情报》和《图书馆理论与实践》,都是11篇。在图3所示的21种期刊中,《图书馆理论与实践》 不是CSSCI(2014-2015) 来源期刊,《图书馆学研究》 不是CSSCI(2011-2013)来源期刊,两者总共刊载论文19篇,占所有CSSCI期刊收录论文总数的23.8%。国内图书馆界目前还没有大数据研究方面的论文发表在《大学图书馆学报》《情报学报》 等最核心期刊,仅有1篇论文发表在《中国图书馆学报》,说明目前我国图书馆界关于大数据研究的文献深度不够,质量偏低。
3.3 第一作者分布
为便于统计,本文将第一作者作为统计依据。根据普赖斯定律提出的核心作者计算公式M=0.749(Nmax1/2)[18],M为论文篇数,Nmax为统计年限中最高产作者的论文数,只有那些发文在M篇以上的作者,才能称为核心作者,即多產作者。
通过图4可知,统计年限中最高产作者发表的论文数为18,代入公式计算得出M=3.177,取整后为3,即发表论文在3篇以上的作者为该领域的核心作者。根据图4的统计分析,发文量在3篇及以上的作者仅有9位,他们总共发表论文50篇,约占论文总数的8.35%,这一数值远低于普赖斯定律中所规定的核心作者要撰写该领域全部论文50%的指标。由此可见,虽然我国图书馆界大数据研究领域已出现具有代表性的核心作者,但还未形成严格意义上的核心作者群,相对固定的研究者少,大多数是瞬时性研究者,缺乏对该领域的长期性、持续性关注。
另外,为了进一步了解“十二五”期间(2011-2015) 我国图书馆界大数据研究论文作者合作情况,笔者对所有文章作者合作人数情况进行了统计分析,具体结果如图5所示。
在统计的599篇文章中,仅134篇文章是合著的,占论文总数的22.37%,所有文章涉及的作者有807人,其中参与合作的作者人数是342人,占总人数的42.38%。说明目前我国图书馆界大数据研究领域的合作很少,大部分论文作者为“单干户”,研究的成果大多是个人的观点,成熟度不够,可靠性较差。
3.4 第一作者的机构分布
通过对发文作者所属机构的统计分析,可以了解我国图书馆界大数据研究力量在各类机构中的配置。
图6清楚地展示了我国图书馆界大数据研究机构分布情况,在发文量较大(篇数>2)的31家机构中,有18家来自高校图书馆、8家来自公共图书馆、2家来自高校院系、2家来自高校网路中心和信息中心、1家来自省委党校,其中发表成果排名前5的机构分别是:兰州商学院信息工程学院(16篇),桂林理工大学图书馆(7篇),兰州商学院网络中心(7篇),辽宁省图书馆(6篇),解放军医学图书馆(5篇)。排在首位的是兰州商学院信息工程学院,结合其研究内容来看,主要包括图书馆大数据管理与价值分析、异构数据整合、图书馆用户隐私保护、基于移动大数据的图书馆服务、图书馆开放数据平台和服务模式、基于可信大数据的图书馆个性化服务平台构建等。排在第二位的是桂林理工大学图书馆,其主要研究内容包括大数据管理技术、移动服务、知识服务、图书馆大数据体系构建、大数据在图书馆的应用等方面,这7篇论文都获得了相应的基金项目资助,有益于研究的持续进行和进一步深入开展。排名第3的是兰州商学院网络中心,其主要从图书馆个性化服务、数据安全、读者隐私保护、基于大数据的搜索引擎、数字图书馆等方面进行大数据研究。 根据统计分析,可以看出:(1)目前我国图书馆界关于大数据的研究机构比较分散,发文数量较少,研究时间短;(2)高校图书馆员和专业教师是我国图书馆界大数据研究的主要力量,他们具有较浓厚的研究底蕴,拥有较强的科研能力,是目前该研究领域的主力军;(3)公共图书馆在该领域的研究较少,大数据研究还没有引起公共图书馆界的重视。
3.5 常用关键词分布
通过对关键词的分析,可以揭示学科特点、结构及内在相关性,反映科研的研究热点和发展动向。
对关键词进行频次统计之后,表1列出了频次大于等于4的关键词64个。通过表1可以看出,目前我国图书馆界大数据研究范围广泛,但并不是所有研究主题都齐头并进,有的主题研究多,有的主题研究少。选择频次大于等于9的关键词共28个,确定为我国图书馆界大数据研究的高频关键词,对高频关键词的分析,可以看出一个研究领域的热点所在。可以看出,“大数据”“图书馆”“高校图书馆”“信息服务”“数字图书馆”“数据挖掘”“知识服务”,是目前我国图书馆界大数据研究的热点。
4 内容性特征的分析和评价
用中科院计算所开发的ICTCLAS对题名进行分词,并去掉停用词,可获得500个有效词汇。需要注意的是,由于题名中均含有“大数据”和“图书馆”,因此这两个词也作为停用词去掉,最终可以形成599×500的DTM(Document-Term Matrix)。
4.1 K-means题名聚类分析(CA)和评价
对DTM进行K-means聚类,设置聚类次数N=20,簇数C=10,将599篇论文划分为10个簇,通过对聚类结果进行分析,笔者对每个簇内容进行了总结,具体如表3所示。
簇C_1的主要研究内容是信息服务、个性化服务;簇C_2的研究内容主要有云计算、数据挖掘、数据分析;簇C_3主要研究的是大数据环境下的信息服务;簇C_4主要研究内容是智慧图书馆;簇C_5的主要研究内容是云计算、数据挖掘在图书的应用;簇C_6主要研究的是数字图书馆资源建设;簇C_7主要研究内容是云计算、数据挖掘、数据处理;簇C_8主要是图书馆服务创新研究;簇C_9的主要研究内容是运用大数据思维开展信息服务;簇C_10主要是大数据研究面临的机遇和挑战。
通过对各个簇内容总结,笔者发现,该10个簇又可以进一步归纳为服务、技术、资源三个大类。其中,簇C_1、C_3、C_4、C_8、C_9、C_10这6个簇归属于服务大类,主要是基于大数据的图书馆服务体系构建研究以及图书馆大数据研究面临的机遇与挑战;簇C_2、C_5、C_7这3个簇归属于技术大类,主要是大数据技术在图书馆的应用研究,如云计算、数据挖掘等;簇C_6归属于资源大类,主要是大数据环境下图书馆资源建设研究。由上可以看出,目前图书馆大数据研究主要集中在服务领域,而技术与资源是现有研究的薄弱环节,服务的研究也大多停留在理论层面,鲜少有实证研究。CSSCI来源期刊中收录的“图书馆大数据”研究论文同样说明了此类情况,80篇CSSCI来源期刊论文,其中49篇是关于服务的研究,24篇是关于技术的研究,仅1篇是关于资源的研究。
4.2 CSSCI论文的因子分析(FA)和评价
因子分析是指研究从变量群中提取共性因子的统计技术,其基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息[19]。由于对599篇论文进行因子分析,数量实在过于巨大,笔者抽取其中质量相对较高的80篇CSSCI论文进行因子分析,一方面探讨目前我国“图书馆大数据”研究的主要或重点内容,另一方面也与上文笔者主观设定的簇内容进行比较分析。
80篇CSSCI论文,170个有效变量(影响因素),形成80×170矩阵,通过对DTM(文献-术语矩阵)进行因子分子,共获得24个因子,其中主要因子有8个。对相关文献进一步分析,可知这8个因子分别为“大数据、图书馆服务”“知識服务、信息服务、数据素养”“大数据环境、数字图书馆”“图书馆资源建设”“大数据在图书馆的应用”“数字图书馆、大数据”“大数据、图书馆、个性化服务”“基于大数据的图书馆服务体系构建”等。
在对相关文献详细分析的基础上,笔者对以上8个因子进一步归纳总结,因子一“大数据、图书馆服务”主要是从宏观层面讨论大数据时代图书馆服务的发展与创新;因子二“知识服务、信息服务、数据素养”,主要研究的是大数据环境下图书馆的信息服务与知识服务;因子三“大数据环境、数字图书馆”主要是关于大数据环境下数字图书馆的功能与安全研究;因子四“图书馆资源建设”主要研究内容是大数据环境下图书馆的资源建设,具体有音频资源建设、文献资源建设;因子五“大数据在图书馆的应用”主要研究的是大数据对图书馆的影响以及大数据在图书馆管理和服务中的应用;因子六“数字图书馆、大数据”主要有数字图书馆与大数据比较研究、面向大数据的数据搜索引擎及数据库缓存模型设计;因子七“大数据、图书馆、个性化服务”,主要研究的是基于大数据的图书馆个性化服务;因子八“基于大数据的图书馆服务体系构建”主要研究内容是基于大数据的图书馆个性化服务、智慧服务平台或体系构建。
通过以上分析,不难发现,因子一、因子二、因子七、因子八主要侧重“服务”研究,因子三、因子六主要侧重“技术”研究,因子四主要是关于“资源”研究,因子五主要是“影响和应用”研究。这与题名聚类分析的结果大致相同,从中可以看出目前我国图书馆界大数据研究的内容主要集中在服务、技术、资源、影响和应用这四个领域,其中关于服务领域的研究范围最广内容最多。
4.3 CSSCI论文的多维尺度分析(MDSA)和评价
多维尺度分析是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法[20]。通常和层次聚类分析(Hierarchical clustering analysis) 结合使用。基本操作过程如下:对每个类目中的文献构建DTM(Document-Term Matrix),进而基于余弦距离计算文献之间的相似度,将DTM转化为DDM(Document-Document Matrix),然后对每个类目的DDM进行层次聚类和多维尺度分析。”十二五”期间我国图书馆大数据研究CSSCI论文的HC和MDS分析的结果如下所示。 RSQ的值为决定系数,是效度指标,表示总变异中能够被相对空间距离所解释的比例,反映MDS的拟合良好程度[21]。Stress值是信度指标,是描述模型对判断数据矩阵拟合效果的参数,反映MDS的拟合劣质程度[21]。从分析结果来看,RSQ值为0.44753, Stress值为0.33120,说明数据的拟合度不好,一方面是由于所分析论文的主题比较分散,另一方面也与论文结点数量有关。
从图8的研究内容聚集得出的层次结果来看,目前我国图书馆大数据研究大致可以分为5个方面:①是大数据时代图书馆服务研究,结合具体文献分析,其中有2篇论文是关于大数据时代的读者隐私保护研究;②是大数据环境下图书馆的信息服务、知识服务及个性化服务;③是大数据时代数字图书馆研究;④大数据环境下图书馆资源建设;⑤是大数据在图书馆的应用研究,以及大数据对图书馆的影响。如果对上述5个方面进一步归类,不难发现,①和②属于“服务”研究;③和⑤偏重于“技术”研究;④属于“资源”研究。
在对层次聚类结果进行降维处理的过程中,数据难免会有失真,通过对相关文献进一步分析,得出图9的分析结果。
图9中的①主要来自图8中的①和③,图9中的②来自图8中的④,图9中的③来自图8中的②,图9中的④来自图8中的⑤。从以上分析来,图8和图9的结果与上文中题名聚类分析和因子分析的结果大致吻合。
5 结论
通过对2011-2015年我国图书馆大数据研究论文进行统计,采用文献计量分析,以可视化效果展示和分析了目前图书馆大数据研究的现状。总体来说,可以得出以下结论:
(1) 从描述性特征来看,自2011年以来我国图书馆大数据研究论文呈逐年增长趋势,全国各个地区都有参与图书馆大数据研究,该领域研究已积累了一定量的文献,但研究分散程度明显,热点集中较少,核心期刊载文量低,虽已出现具有代表性的核心作者,但还未形成严格意义上的核心作者群,大多数是瞬时研究者或“单干户”,高校图书馆员和专业教师是目前该领域研究的主要力量,公共图书馆在该领域的研究较少。
(2) 从内容性特征来看,目前我国图书馆大数据研究主要包含“服务”“技术”“资源”“影响和应用”4个领域,其中,大数据环境下图书馆服务研究是重点与主体,研究内容大都集中在大数据时代对图书馆服务方式的影响以及模式转变,大数据的技术特征在现有研究中还没有得到很好体现,面向大数据的图书馆资源建设与整合还没有引起太多重视,大数据在图书馆的应用研究工作涉及很少,总体来说,目前该领域偏重于理论探讨,缺少技术和实践研究。
在今后的研究中需多关注以下方面: (1) 图书馆数据存储与分析处理研究,海量数据的急剧增长给数据存储能力和存储结构带来了巨大考验,如何提高存储能力,优化存储结构,并充分利用大数据技术,提升數据处理效率,甄选有价值数据,实时跟踪处理数据,有效利用数据价值,是今后研究的重点; (2) 信息安全和读者隐私研究,图书馆在利用大数据技术提高读者服务能力和服务质量的同时,要有效保护好信息安全和读者隐私; (3) 图书馆资源建设研究,大数据时代下资源组织和建设工作力度加大,资源利用和开发深度得到空前深化,读者需求也成为图书馆重要的资源,开展以读者资源需求为导向的决策处理; (4) 加强图书馆大数据应用的实证研究; (5) 鉴于大数据的技术特征以及应用的广泛性,图书馆大数据研究也可以考虑跨学科、跨领域合作。
关键词 “十二五” 大数据 图书馆 因子分析 层次聚类 多维尺度分析
分类号 G254.97
DOI 10.16810/j.cnki.1672-514X.2017.12.016
Abstract Adopting the bibliometrics analysis, and taking the CNKI as the investigation and statistics resource, this paper makes the statistics and analysis on descriptive features and content features of big data research of the library in China in the 12th five-year period(2011-2015). The research results in this field show a continuous growth trend, the research perspective is diversified, but the research institutions are scattered, and the number of papers in core journals is low. “School library” “information service” “digital library” “data mining” are the research hotspot about big data research of the library in China at present. The main contents involve four fields: “service” “technology” “resource” “influence and application” , which emphasizes on the theoretical discussion and lack of practice and application.
Keywords The 12th five-year. Library. Big data. Factor analysis. Hierarchical clustering(HC). Multidimensional scaling analysis (MDSA).
0 引言
隨着众多社交媒体的迅速崛起,以及互联网、物联网、云计算等技术的的兴起,信息爆炸时代来临,作为基础的“数据”越来越受到重视,其在社会经济发展中所展现的预测能力、决策支持能力日益明显,全球知名咨询公司麦肯锡在2011年5月发布的《Big Data: the Next Frontier for Innovation》[1]报告中首次使用了 “大数据”这一概念,引起了产业界、科技界和政府部门的高度关注。我们有理由相信,对大数据的研究和应用将会如火如荼开展,进而渗透到社会各行各业。随着大数据时代的到来,大数据也将渗透到图书馆的管理、运行、服务与变革等环节,成为影响图书馆基础建设、服务模式与内容变革、读者个性化服务保障以及可持续发展的重要因素。
本文基于国内图书馆界大数据研究的相关文献数据,对大数据研究展开调研,以期了解目前我国图书馆界大数据研究现状,为今后的研究提供更多依据和参考。通过对文献数据进行计量分析和内容分析,包括文献的年度分布、期刊分布、作者分布、机构分布、区域分布、关键词分布,并利用聚类分析法、因子分析法和多维尺度分析法(MDSA) 对文献研究主题进行分析评价,以期发现目前我国图书馆界大数据研究的重点和不足,为后续研究指明方向。
1 近期相关研究
作为继云计算之后的新兴信息技术之一,我国图书馆界对大数据研究已悄然兴起,并迅速刮起一阵旋风,大数据日益成为学术界关注的热点。学者们纷纷从不同视角对图书馆大数据问题进行了比较系统的研究。
大多数研究者认为,大数据给图书馆带来良好机遇,同时图书馆也面临挑战[2-4]。大部分学者还研究了大数据与图书馆服务的问题。从图书馆服务创新[5]、图书馆用户服务保障[6]、构建个性化服务平台[7]等方面探讨了大数据对图书馆服务方式的影响以及服务模式的改变。还有部分学者对图书馆大数据应用进行了一些研究。张毅等探索了现阶段图书馆基于大数据开展管理与服务工作的实践方案[8]。江云等在借鉴国外经验的基础上构建了我国图书馆推进大数据的基本框架[2]。此外,对数字图书馆研究也逐步开展,如数字图书馆异构数据集成[9]、数据库缓存模型设计[10]、大数字图书馆安全威胁[11]等也受到关注。
除了以上的主要研究内容以外,目前我国图书馆大数据研究涉及的主题还有读者隐私保护[12]、利用大数据分析法提高图书馆读者决策采购(PDA)效能[13]、图书馆与档案馆深度融合发展[14]、国外推进大数据的应用实践介绍[15]以及国内图书馆大数据背景下的有关实践尝试[16]等。
综上所述,我国图书馆界对大数据的研究视角呈现多样化的特征,但总体研究不够深入,重理论、轻技术、轻实践,图书馆利用大数据的方式、技术实现、服务模式的改进与创新、大数据应用策略等问题的研究还不够深入,图书馆大数据应用的实证研究几乎没有。 2 数据的来源和处理方法
本文以CNKI(中国知网)的中国学术期刊网络出版总库为数据源,调查文献的范围为“图书馆大数据研究”,笔者于2016年4月24日分别使用“图书馆*大数据”为检索词,以“篇名”为检索项,时间跨度为2011-2015,共检索出相关记录608条,删除会议通知、会议成功举办公告、序、会议评论等共9条,最后得到匹配文献599篇。
本文拟从描述性特征和内容性特征两个角度探测我国图书馆界大数据研究的总体状况和讨论热点。对于前者,笔者主要采用数据泛化思想,即根据实际情况,将研究论文的各著录项信息从细节数据转化为具有一定粒度的轻度综合性数据,进而采用数理统计方法,探测该领域研究论文在年度、地区、期刊以及关键词等方面的特征分布;对于后者,本文则基于论文题名采用K-means聚类方法对现有研究进行分组,进而采用因子分析探测各组研究的主要成分以及利用层次聚类(HCA) 和多维尺度分析(MDSA) 讨论各组的研究侧重点和薄弱环节。
3 描述性特征的分析和评价
3.1 年度分布
通过对文献年代统计分析,有助于把握该研究领域的理论水平和发展速度。本文搜集整理“十二五”期间(2011-2015) 我国图书馆界关于大数据研究的文献,并根据文献数量绘制了图1。
从图1可以看出,2011-2015年间,我国图书馆界关于大数据的研究呈跳跃式发展,2011年该领域的研究还处于空白阶段,随着美国奥巴马政府在2012年2月宣布推出“大数据的研究和发展计划”,又于3月29日在美国白宫网站发布《大数据研究和发展倡议》(Big Data Research and Development Initiative)[17],图书馆界渐渐开始了大数据研究。2012年该研究还处于起步阶段,年发文量仅4篇,2013年呈现不断上升趋势,国内关于大数据的研究正逐步升温,2014年出现了跳跃式发展,年发文量激增到219篇,大约是2013年年发文量的4.5倍。2015年8月31日,国务院印发了《促进大数据发展行动纲要》,系统部署大数据发展工作,随之,国内图书馆界关于大数据的研究也进入白热化,2015年的年发文量高达327篇,我国图书馆界刮起大数据研究的旋风,大数据已成为学术界关注的热点。
3.2 期刊分布
2011-2015年,共有278种期刊载有图书馆大数据研究方面的论文,总载文比为2.15,比较低。
599篇论文在278种期刊中的具体分布情况如图2所示,图例中仅列出了发文量不小于5的期刊。载文量为1篇的期刊有252种。载文量在5-10篇的期刊有14种,共载有论文95篇。载文量在11-20篇的期刊有6种,共载有论文74篇。载文量在21-30篇的期刊有3种,总载有论文81篇。载文量在30篇以上的期刊有3种,共载有论文97篇,其中载文量最高的是《农业图书情报学刊》,共35篇,其次是《河南图书馆学刊》和《科技情报开发与经济》,两者都是31篇。说明目前我国图书馆界大数据研究分散程度明显,研究热点集中较少。
笔者进一步统计了该领域研究论文的CSSCI期刊收录情况,599篇论文中被CSSCI期刊收录的仅80篇,占论文总数的13.4%。
图3揭示了具体分布情况,载文量最高的是《图书馆工作与研究》,共16篇,其次是《图书与情报》和《图书馆理论与实践》,都是11篇。在图3所示的21种期刊中,《图书馆理论与实践》 不是CSSCI(2014-2015) 来源期刊,《图书馆学研究》 不是CSSCI(2011-2013)来源期刊,两者总共刊载论文19篇,占所有CSSCI期刊收录论文总数的23.8%。国内图书馆界目前还没有大数据研究方面的论文发表在《大学图书馆学报》《情报学报》 等最核心期刊,仅有1篇论文发表在《中国图书馆学报》,说明目前我国图书馆界关于大数据研究的文献深度不够,质量偏低。
3.3 第一作者分布
为便于统计,本文将第一作者作为统计依据。根据普赖斯定律提出的核心作者计算公式M=0.749(Nmax1/2)[18],M为论文篇数,Nmax为统计年限中最高产作者的论文数,只有那些发文在M篇以上的作者,才能称为核心作者,即多產作者。
通过图4可知,统计年限中最高产作者发表的论文数为18,代入公式计算得出M=3.177,取整后为3,即发表论文在3篇以上的作者为该领域的核心作者。根据图4的统计分析,发文量在3篇及以上的作者仅有9位,他们总共发表论文50篇,约占论文总数的8.35%,这一数值远低于普赖斯定律中所规定的核心作者要撰写该领域全部论文50%的指标。由此可见,虽然我国图书馆界大数据研究领域已出现具有代表性的核心作者,但还未形成严格意义上的核心作者群,相对固定的研究者少,大多数是瞬时性研究者,缺乏对该领域的长期性、持续性关注。
另外,为了进一步了解“十二五”期间(2011-2015) 我国图书馆界大数据研究论文作者合作情况,笔者对所有文章作者合作人数情况进行了统计分析,具体结果如图5所示。
在统计的599篇文章中,仅134篇文章是合著的,占论文总数的22.37%,所有文章涉及的作者有807人,其中参与合作的作者人数是342人,占总人数的42.38%。说明目前我国图书馆界大数据研究领域的合作很少,大部分论文作者为“单干户”,研究的成果大多是个人的观点,成熟度不够,可靠性较差。
3.4 第一作者的机构分布
通过对发文作者所属机构的统计分析,可以了解我国图书馆界大数据研究力量在各类机构中的配置。
图6清楚地展示了我国图书馆界大数据研究机构分布情况,在发文量较大(篇数>2)的31家机构中,有18家来自高校图书馆、8家来自公共图书馆、2家来自高校院系、2家来自高校网路中心和信息中心、1家来自省委党校,其中发表成果排名前5的机构分别是:兰州商学院信息工程学院(16篇),桂林理工大学图书馆(7篇),兰州商学院网络中心(7篇),辽宁省图书馆(6篇),解放军医学图书馆(5篇)。排在首位的是兰州商学院信息工程学院,结合其研究内容来看,主要包括图书馆大数据管理与价值分析、异构数据整合、图书馆用户隐私保护、基于移动大数据的图书馆服务、图书馆开放数据平台和服务模式、基于可信大数据的图书馆个性化服务平台构建等。排在第二位的是桂林理工大学图书馆,其主要研究内容包括大数据管理技术、移动服务、知识服务、图书馆大数据体系构建、大数据在图书馆的应用等方面,这7篇论文都获得了相应的基金项目资助,有益于研究的持续进行和进一步深入开展。排名第3的是兰州商学院网络中心,其主要从图书馆个性化服务、数据安全、读者隐私保护、基于大数据的搜索引擎、数字图书馆等方面进行大数据研究。 根据统计分析,可以看出:(1)目前我国图书馆界关于大数据的研究机构比较分散,发文数量较少,研究时间短;(2)高校图书馆员和专业教师是我国图书馆界大数据研究的主要力量,他们具有较浓厚的研究底蕴,拥有较强的科研能力,是目前该研究领域的主力军;(3)公共图书馆在该领域的研究较少,大数据研究还没有引起公共图书馆界的重视。
3.5 常用关键词分布
通过对关键词的分析,可以揭示学科特点、结构及内在相关性,反映科研的研究热点和发展动向。
对关键词进行频次统计之后,表1列出了频次大于等于4的关键词64个。通过表1可以看出,目前我国图书馆界大数据研究范围广泛,但并不是所有研究主题都齐头并进,有的主题研究多,有的主题研究少。选择频次大于等于9的关键词共28个,确定为我国图书馆界大数据研究的高频关键词,对高频关键词的分析,可以看出一个研究领域的热点所在。可以看出,“大数据”“图书馆”“高校图书馆”“信息服务”“数字图书馆”“数据挖掘”“知识服务”,是目前我国图书馆界大数据研究的热点。
4 内容性特征的分析和评价
用中科院计算所开发的ICTCLAS对题名进行分词,并去掉停用词,可获得500个有效词汇。需要注意的是,由于题名中均含有“大数据”和“图书馆”,因此这两个词也作为停用词去掉,最终可以形成599×500的DTM(Document-Term Matrix)。
4.1 K-means题名聚类分析(CA)和评价
对DTM进行K-means聚类,设置聚类次数N=20,簇数C=10,将599篇论文划分为10个簇,通过对聚类结果进行分析,笔者对每个簇内容进行了总结,具体如表3所示。
簇C_1的主要研究内容是信息服务、个性化服务;簇C_2的研究内容主要有云计算、数据挖掘、数据分析;簇C_3主要研究的是大数据环境下的信息服务;簇C_4主要研究内容是智慧图书馆;簇C_5的主要研究内容是云计算、数据挖掘在图书的应用;簇C_6主要研究的是数字图书馆资源建设;簇C_7主要研究内容是云计算、数据挖掘、数据处理;簇C_8主要是图书馆服务创新研究;簇C_9的主要研究内容是运用大数据思维开展信息服务;簇C_10主要是大数据研究面临的机遇和挑战。
通过对各个簇内容总结,笔者发现,该10个簇又可以进一步归纳为服务、技术、资源三个大类。其中,簇C_1、C_3、C_4、C_8、C_9、C_10这6个簇归属于服务大类,主要是基于大数据的图书馆服务体系构建研究以及图书馆大数据研究面临的机遇与挑战;簇C_2、C_5、C_7这3个簇归属于技术大类,主要是大数据技术在图书馆的应用研究,如云计算、数据挖掘等;簇C_6归属于资源大类,主要是大数据环境下图书馆资源建设研究。由上可以看出,目前图书馆大数据研究主要集中在服务领域,而技术与资源是现有研究的薄弱环节,服务的研究也大多停留在理论层面,鲜少有实证研究。CSSCI来源期刊中收录的“图书馆大数据”研究论文同样说明了此类情况,80篇CSSCI来源期刊论文,其中49篇是关于服务的研究,24篇是关于技术的研究,仅1篇是关于资源的研究。
4.2 CSSCI论文的因子分析(FA)和评价
因子分析是指研究从变量群中提取共性因子的统计技术,其基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息[19]。由于对599篇论文进行因子分析,数量实在过于巨大,笔者抽取其中质量相对较高的80篇CSSCI论文进行因子分析,一方面探讨目前我国“图书馆大数据”研究的主要或重点内容,另一方面也与上文笔者主观设定的簇内容进行比较分析。
80篇CSSCI论文,170个有效变量(影响因素),形成80×170矩阵,通过对DTM(文献-术语矩阵)进行因子分子,共获得24个因子,其中主要因子有8个。对相关文献进一步分析,可知这8个因子分别为“大数据、图书馆服务”“知識服务、信息服务、数据素养”“大数据环境、数字图书馆”“图书馆资源建设”“大数据在图书馆的应用”“数字图书馆、大数据”“大数据、图书馆、个性化服务”“基于大数据的图书馆服务体系构建”等。
在对相关文献详细分析的基础上,笔者对以上8个因子进一步归纳总结,因子一“大数据、图书馆服务”主要是从宏观层面讨论大数据时代图书馆服务的发展与创新;因子二“知识服务、信息服务、数据素养”,主要研究的是大数据环境下图书馆的信息服务与知识服务;因子三“大数据环境、数字图书馆”主要是关于大数据环境下数字图书馆的功能与安全研究;因子四“图书馆资源建设”主要研究内容是大数据环境下图书馆的资源建设,具体有音频资源建设、文献资源建设;因子五“大数据在图书馆的应用”主要研究的是大数据对图书馆的影响以及大数据在图书馆管理和服务中的应用;因子六“数字图书馆、大数据”主要有数字图书馆与大数据比较研究、面向大数据的数据搜索引擎及数据库缓存模型设计;因子七“大数据、图书馆、个性化服务”,主要研究的是基于大数据的图书馆个性化服务;因子八“基于大数据的图书馆服务体系构建”主要研究内容是基于大数据的图书馆个性化服务、智慧服务平台或体系构建。
通过以上分析,不难发现,因子一、因子二、因子七、因子八主要侧重“服务”研究,因子三、因子六主要侧重“技术”研究,因子四主要是关于“资源”研究,因子五主要是“影响和应用”研究。这与题名聚类分析的结果大致相同,从中可以看出目前我国图书馆界大数据研究的内容主要集中在服务、技术、资源、影响和应用这四个领域,其中关于服务领域的研究范围最广内容最多。
4.3 CSSCI论文的多维尺度分析(MDSA)和评价
多维尺度分析是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法[20]。通常和层次聚类分析(Hierarchical clustering analysis) 结合使用。基本操作过程如下:对每个类目中的文献构建DTM(Document-Term Matrix),进而基于余弦距离计算文献之间的相似度,将DTM转化为DDM(Document-Document Matrix),然后对每个类目的DDM进行层次聚类和多维尺度分析。”十二五”期间我国图书馆大数据研究CSSCI论文的HC和MDS分析的结果如下所示。 RSQ的值为决定系数,是效度指标,表示总变异中能够被相对空间距离所解释的比例,反映MDS的拟合良好程度[21]。Stress值是信度指标,是描述模型对判断数据矩阵拟合效果的参数,反映MDS的拟合劣质程度[21]。从分析结果来看,RSQ值为0.44753, Stress值为0.33120,说明数据的拟合度不好,一方面是由于所分析论文的主题比较分散,另一方面也与论文结点数量有关。
从图8的研究内容聚集得出的层次结果来看,目前我国图书馆大数据研究大致可以分为5个方面:①是大数据时代图书馆服务研究,结合具体文献分析,其中有2篇论文是关于大数据时代的读者隐私保护研究;②是大数据环境下图书馆的信息服务、知识服务及个性化服务;③是大数据时代数字图书馆研究;④大数据环境下图书馆资源建设;⑤是大数据在图书馆的应用研究,以及大数据对图书馆的影响。如果对上述5个方面进一步归类,不难发现,①和②属于“服务”研究;③和⑤偏重于“技术”研究;④属于“资源”研究。
在对层次聚类结果进行降维处理的过程中,数据难免会有失真,通过对相关文献进一步分析,得出图9的分析结果。
图9中的①主要来自图8中的①和③,图9中的②来自图8中的④,图9中的③来自图8中的②,图9中的④来自图8中的⑤。从以上分析来,图8和图9的结果与上文中题名聚类分析和因子分析的结果大致吻合。
5 结论
通过对2011-2015年我国图书馆大数据研究论文进行统计,采用文献计量分析,以可视化效果展示和分析了目前图书馆大数据研究的现状。总体来说,可以得出以下结论:
(1) 从描述性特征来看,自2011年以来我国图书馆大数据研究论文呈逐年增长趋势,全国各个地区都有参与图书馆大数据研究,该领域研究已积累了一定量的文献,但研究分散程度明显,热点集中较少,核心期刊载文量低,虽已出现具有代表性的核心作者,但还未形成严格意义上的核心作者群,大多数是瞬时研究者或“单干户”,高校图书馆员和专业教师是目前该领域研究的主要力量,公共图书馆在该领域的研究较少。
(2) 从内容性特征来看,目前我国图书馆大数据研究主要包含“服务”“技术”“资源”“影响和应用”4个领域,其中,大数据环境下图书馆服务研究是重点与主体,研究内容大都集中在大数据时代对图书馆服务方式的影响以及模式转变,大数据的技术特征在现有研究中还没有得到很好体现,面向大数据的图书馆资源建设与整合还没有引起太多重视,大数据在图书馆的应用研究工作涉及很少,总体来说,目前该领域偏重于理论探讨,缺少技术和实践研究。
在今后的研究中需多关注以下方面: (1) 图书馆数据存储与分析处理研究,海量数据的急剧增长给数据存储能力和存储结构带来了巨大考验,如何提高存储能力,优化存储结构,并充分利用大数据技术,提升數据处理效率,甄选有价值数据,实时跟踪处理数据,有效利用数据价值,是今后研究的重点; (2) 信息安全和读者隐私研究,图书馆在利用大数据技术提高读者服务能力和服务质量的同时,要有效保护好信息安全和读者隐私; (3) 图书馆资源建设研究,大数据时代下资源组织和建设工作力度加大,资源利用和开发深度得到空前深化,读者需求也成为图书馆重要的资源,开展以读者资源需求为导向的决策处理; (4) 加强图书馆大数据应用的实证研究; (5) 鉴于大数据的技术特征以及应用的广泛性,图书馆大数据研究也可以考虑跨学科、跨领域合作。