论文部分内容阅读
摘 要:大数据时代网络学术资源激增,其利用行为相应发生变化。文章采用引文分析的方法,以2010-2014年图书情报领域四种权威期刊的引文数据为研究样本,探究我国图情学者对网络学术资源利用的新特征和新趋势。研究结果表明:近五年,我国图情领域学者对网络学术资源的认可程度进一步提高;呈现出对“非学术类”、个别国家或地区、深度资源等特征的网络学术资源的利用偏好。
关键词:网络学术资源;资源聚合;学科服务;图书情报
中图分类号: G250.252 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016060
The Characteristic and Trend of Web Academic Resources' Utilization in the Field of Library and Information Science: Research Based on Citation Analysis
Abstract The utilization behavior of researchers have been changed since a surge of web academic resources in big data era. The new characteristic and trend of web academic resources' utilization in study of Library and Information Science are investigated in this paper. Citation analysis method is used to analyze the citation data from 2010 to 2014 of four top journals in this field in China. The results show that (a) Chinese LIS scholars further improved the utilization of web academic resources in recent five years; (b) LIS researchers indicated a strong preference for citing web sources which are non-scholar resources, deep resources or resources from specific countries.
Key words web academic resources;resource aggregation;subject service;library and information
1 引言
网络信息资源中存在着大量对科研工作极具参考价值的学术信息[1],而大数据时代更推动了网络学术资源迅速增长[2]。网络学术资源的价值逐渐被广泛认可,并越来越多的出现在以学术论文为代表的科研成果中。Chen C等[3]研究指出,对网络引文进行分析有助于研究者认识他们的引文习惯和模式,并能更好地评估引文证据的可靠性。基于此,一些学者通过引文分析的方法试图探求科研工作者对网络学术资源的利用行为及其规律。国外学者对这一现象关注较早,其既有对单一学科的研究[4-5],又有对跨学科的比较分析[6-8]。Yang S等[9]研究对比了不同国家的研究样本后发现,中国学者对网络学术资源的利用程度偏低。国内研究则大多集中在图情学科领域,如张洋、张洁[10]分析了2003-2007年间我国四种图情类期刊的刊载论文引文数据,从网络引文总数、篇平均网络引文量、域名分类和作者情况等特征量对网络学术资源的利用情况进行了探究;丁敬达、杨思洛[11]从网络引文的类型、分布与可追溯性角度对四种图情核心期刊2005-2010年的引文数据进行研究;牟佩等[12]对2007-2011年图情领域的网络引文数据予以研究;曹树金、李洁娜[13]在图情期刊论文的基础上补充了会议论文和博/硕士学位论文作为计量分析的对象。
综观以上研究发现,样本数据大多集中在2010年之前,尚未有针对近五年来图书情报领域网络学术资源利用现状与趋势的研究。但大数据浪潮的兴起极大地改变了网络学术资源的体量、种类、更新速度以及价值,而其利用行为和规律的变化并没有被发现和把握。上述这些以频数统计为主、缺乏对数据深层挖掘的研究,使得一些潜在的关系难以被揭示。因而,笔者认为对近年来图书情报领域网络学术资源利用情况进行研究以指导相关资源聚合、导航等服务工作的展开,具有必要性和迫切性。
2 数据来源
本文选取中文社会科学引文索引(CSSCI)公布的《CSSCI(2014-2015)来源期刊拟收录目录》中收录的4种图情领域权威期刊《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》以及《情报学报》作为样本,研究其近五年(2010-2014年)刊载的学术论文引文情况。
考虑到数据的可获取性和规范性,首先确定万方数据库为数据源,在学术期刊全文数据库中采用高级检索方式将“期刊-刊名”检索字段分别限定为上述四种期刊,时间限定为“2010年-2014年”,对目标文献进行检索。而后通过编写的爬虫程序抓取文章简介页面的参考文献和著录信息。数据采集时间为2015年11月18日至11月22日,剔除期刊中的新闻、通告、快报、简讯、卷首语等非研究性文章,并辅以人工检查后,共得到文献4763篇,其中《中国图书馆学报》350篇、《大学图书馆学报》646篇、《图书情报工作》3022篇、《情报学报》745篇①。之后利用Excel2010和SPSS18.0统计分析工具对数据进行分析。 3 分析与讨论
3.1 总体描述
本文获取的含引文论文数(a)共4763篇,包含引文(C)89263条,篇均引文量(C/a)为18.74。其中,含网络引文的论文(Wa)2948篇,网络引文(W)15216条,篇均网络引文量(W/a)为3.19条,网络引文在引文总量中的占比(W/C)为17.05%,含网络引文的论文在论文总量中的占比(Wa/a)为61.89%(见表1)。尽管与Sadat-Moosavi 等[14]对Emerald收录的四个图书情报领域顶级期刊的研究结论在“篇均网络引文量”和“网络引文在引文总量中的占比”②这两个指标上仍存在差距。但对比国内学者丁敬达、杨思洛[9]对同样四种期刊2005-2010年的刊载数据研究结果③,发现统计数据在“篇均网络引文量”和“含网络引文的论文在论文总量中的占比”两个指标上有较大提高,说明网络学术资源在我国图情学者中的认可程度逐步提升。特别地,“含网络引文的论文在论文总量中的占比”这一指标更是进一步贴近了Tajeddini等人[15]对国外六种图情领域顶级期刊的研究结论④,说明国内学者对网络学术资源的重视程度与利用能力正逐步向国际水平靠拢。
3.2 网络引文的期刊分析
从统计结果可以看出,除发文量和单篇引文量外,各期刊在篇均网络引文量、网络引文在引文总量中的占比、含网络引文的论文在论文总量中的占比这三项指标上差别较大。为客观地反映出各期刊刊载论文对网络引文的利用程度,本文借鉴吴淑娟等[16]在研究北京地区高校硕博士论文网络资源利用情况时使用的方差分析方法进行进一步分析。为避免期刊间引文数量总体差异的影响,本文选取网络引文在引文总量中的占比(W/C)作为分析对象。
首先,对四组数据进行正态性检验和方差同质性检验,Kolmogorov-Smirnov检验表明数据不符合正态分布,Levene统计量的值为152.972,p值小于0.01,拒绝原假设,认为四个组的数据不满足方差齐性的前提条件。故采用非参数统计中的Kruskal-Wallis检验对各期刊的W/C是否存在显著性差异进行考察,结果见表2,卡方统计量为175.944,p值小于0.01,拒绝原假设,表明不同期刊的W/C具有显著性差异。进一步了解具体是哪些期刊与其它期刊在W/C上存在显著差异,采用未假定方差齐性的多重比较法分析,结果见表3。由于当p值小于显著性水平0.05时,表明期刊之间存在显著性差异,结合四种期刊W/C数据的均值图(见图1),得到如下结论:
(1)《大学图书馆学报》的网络引文在引文总量中的占比显著高于除《中国图书馆学报》之外的其它两种期刊;
(2)《情报学报》的网络引文在引文总量中的占比显著低于其它三种期刊;
(3)《图书情报工作》和《中国图书馆学报》的网络引文在引文总量中的占比没有显著差异。
3.3 网络引文的年度分析
从2010-2014年样本期刊刊载论文的网络引文年度分布可以看出,网络引文数(W)、网络引文在引文总量中的占比(W/C)以及含网络引文的论文在论文总量中的占比(Wa/a)这三项数据大致呈现上升的
趋势,而篇均网络引文量(W/a)更是由2010年的2.3
篇逐年增加到2014年的4.46篇(见表4)。这反映出网络学术资源对本领域学术研究的影响作用正不断加深。为进一步了解网络学术资源利用情况的年度变化规律,考虑剔除掉年度发文量和单篇引文量的影响,本文选取网络引文在引文总量中的占比(W/C)这一指标进行深入考察。
首先,对五组数据进行正态性检验和方差同质性检验,Kolmogorov-Smirnov检验表明数据不符合正态分布,Levene统计量的值为40.944,p值小于0.01,拒绝原假设,认为五个组不满足方差齐性的前提条件。故采用非参数统计中的Kruskal-Wallis检验对各年度的W/C是否存在显著性差异进行考察,结果(见表5),卡方统计量为79.756,p值小于0.01,拒绝原假设,表明不同年度的W/C具有显著性差异。进而采用未假定方差齐性的多重比较法分析,结果见表6。由于当p值小于显著性水平0.05时,表明年度之间存在显著性差异,结合年度W/C数据的均值图(见图2)得到如下结论:
(1)2013年网络引文在引文总量中的占比显著高于前三年(2010-2012年);
(2)2010年和2011年网络引文在引文总量中的占比显著低于后三年(2012-2014年);
(3)2012年与2014年网络引文在引文总量中的占比没有显著差异。
(4)2014年与2013年网络引文在引文总量中的占比没有显著差异。
注:a. Kruskal Wallis 检验;b. 分组变量: 年度
3.4 来源网站类型分析
按照域名可以将常见学术相关网站分为7 类: .com(工商企业)、.org(非营利组织)、.net(网络机构)、.edu(教育)、.gov(政府)、.ac(学术)、.int(国际组织)[17]。将2010-2014年四种期刊各类型网站引文数据进行整理,得到单篇论文中不同类型网站引文占全部网络引文比重的均值图(见图3)。可以看出,平均被引用比重最高的四类网站类型由高到低分别为.com、.org、.edu和.gov,这与中国互联网信息中心发布的《第36 次中国互联网络发展状况调查统计报告》[18]中的中国域名分类统计结果(.com>.net>.ac>.org)有较大差异,表明不同类型的网站提供资源的学术价值和被认可程度存在差异。从学术引文角度来看,本结论与两份分别针对2005-2010年(.org>.com>. edu>.gov)[11]和2007-2011年(.com>.edu>.org>.gov)[12]图情领域引文的研究结果也存在一定区别,表现为工商企业类和非营利组织类网站引用比例的进一步提升,反映出我国图书情报领域研究注重与市场贴合的趋势。 对七组的数据进行正态分布检验和方差同质性检验,Kolmogorov-Smirnov检验表明数据不符合正态分布,Levene统计量的值为1265.620,p值小于0.01,拒绝原假设,认为七个组不满足方差齐性的前提条件。故采用非参数统计中的Kruskal-Wallis检验对各类型来源网站数据是否存在显著性差异进行考察,结果见表7,卡方统计量为3050.376,p值小于0.01,拒绝原假设,表明各类型来源网站数据具有显著性差异。采用未假定方差齐性的多重比较法分析,结果见表8。由于当p值小于显著性水平0.05时,表明网站类型之间存在显著性差异,结合单篇论文中不同类型网站引文占全部网络引文的均值图(见图3)得到如下结论:
(1)来源于工商企业网站的引文数显著高于其它网站;
(2)来源于国际组织网站的引文数显著低于其它网站;
(3)来源于网络机构和学术网站的引文数没有显著差异。
注:a. Kruskal Wallis 检验;b. 分组变量: 域名
3.5 资源来源地区分析
除国际域名(如.com、.net)和中国域名(.cn)之外,网络引文中还多次出现其它国家或地区的域名,本文选取一项针对2010-2012年图情领域高被引域名分布研究[13] 的前十位国家或地区域名作为研究对象,探索不同来源国家或地区引文间的利用差异以及变动情况。对这十个国家或地区的数据进行统计,得到网络引文的频次图(见图4)。与2010-2012年的研究结果比较,发现来源于日本的网络引文频次有较大幅度的上升,其次是澳大利亚。
进一步对十组数据进行正态分布检验和方差同
质性检验,Kolmogorov-Smirnov检验表明数据不符合
正态分布,Levene统计量的值为138.154,p值小于
前提条件。故采用非参数统计中的Kruskal-Wallis检
0.01,拒绝原假设,认为十组数据不满足方差齐性的验对各来源国家或地区引文数据是否存在显著性差异进行考察,结果见表9,卡方统计量为817.286,p值小于0.01,拒绝原假设,表明各来源国家或地区数据具有显著性差异。采用未假定方差齐性的多重比较法分析,结果显示十个国家或地区按引用频次由高到低分别是英国、德国、台湾、加拿大、澳大利亚、意大利、香港、美国、日本、法国。(见表10)。由于当p值小于显著性水平0.05时,表明国家或地区之间存在显著性差异,结合十个国家或地区来源的网络引文频次(见图4)得到如下结论:
(1)来源于英国的引文数显著高于其它国家和地区;
(2)来源于意大利的引文数显著低于除美国、法国之外的其它网站;
(3)来源于德国、台湾、加拿大、澳大利亚、香港和日本的引文数没有显著差异。
3.6 资源利用深度分析
URL统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示。Yang等[19]指出,可以通过“/”在URL中出现的次数衡量URL的深度,即每增加一个“/”,URL的深度加1。被引URL的深度可以反映出科研工作者对以网站为载体的网络学术资源的利用深度[13]。故本文尝试对网络引文数据样本的URL深度进行统计分析,以期揭示我国图情学者对网络学术资源的利用深度规律。统计发现,URL深度为3的引文最多,其次是深度为2和4的,URL深度最大达到16,但从9开始,引文量明显减少(见图5)。
进一步按年度整理各URL深度引文在全部引文中的占比,观察其年度变化。由于URL深度大于8的数据量较少,本文将URL深度为9-16的数据合并统计。根据统计数据可知,2010年、2011年URL深度为2的引文占比最高,2012-2014年则是URL深度为3的引文。从区间上来看,URL深度小于3的引文比例有所减少,尤其是URL深度为1的引文大幅下降,相比之下,URL深度大于2的引文比例增多,URL深度大于8的引文更是逐年增加(见表11)。这一定程度上反映出图情学者对网络学术资源探索和利用深度的逐步增加。
4 结论与启示
本文以2010-2014年图书情报领域四种权威期刊的引文数据为研究样本,通过定量的引文分析方法揭示大数据时代我国图情学者对网络学术资源利用的情况与新趋势。
整体来看,尽管五年前本领域研究者已发现网络引文的增长以及学者对网络学术资源利用意识的提高,这一趋势在大数据时代没有改变甚至更为明显。虽然作为研究样本的四个期刊由于载文量、篇幅限制、主题风格等因素导致了指标间的差异较大,但总体而言,网络学术资源较之以往更多的出现在图情领域的研究论文中,一方面表现为利用网络学术资源的论文占比的增长;另一方面表现为单篇论文中的网络引文量的增长,且这两项指标的增长幅度都超过了五年前。可见,我国图情领域学者对网络学术资源的认可程度进一步提高。可以推测,大数据环境下随着网络学术资源的激增和资源获取成本的降低,研究者对学术资源的获取与利用行为、习惯已发生了一定程度的变化,这一变化将伴随着资源数字化浪潮愈加深刻。但是,需要承认的是,大数据也会带来网络学术资源的认知超载,甚至导致科研工作过程中的信息迷航。为提高学术资源获取的便利性,建设与开展面向学科领域、服务科研活动的网络学术资源深度聚合与服务则显得尤为迫切与重要。而为提高学术资源获取的精准性,学科服务主体应充分把握大数据环境下科研工作者对网络学术资源的利用偏好与特征。
本研究发现近年来我国图情学者的网络学术资源利用行为呈现出以下突出的特征:
(1)从网站类型来看,我国图情学者对不同类型的网站提供的网络学术资源在利用上呈现出一定的选择性。这侧面反映出各类型网站提供资源的学术性、利用价值和可获取性以及研究者偏好上的差异。相较以往,以工商企业类、非营利组织类和政府类为代表的“非学术类”网站资源在图情研究中的作用更加突出,这反映出我国图情学者在研究过程中越来越重视产业资讯、行业数据与政策法规的价值,使图情研究更加贴合市场热点。因而,在对网络资源进行聚合时,不仅要考虑传统的“学术”类网站,更要考虑一些诸如政策类、财经类的“非学术”高被引网站,而此类资源常表现出的实时性和动态性则是聚合时的难点与关键点。 (2)从资源来源地区来看,除了来自中国大陆地区网站的资源外,大量的其它国家或地区的网站资源出现在我国图情学者的研究中,表明其外文资源利用意识与能力的提升。在本文研究的十个国家或地区中,英国网站资源被引频次显著高于其它国家或地区,而来自于日本和澳大利亚的网络学术资源在近几年我国图情研究的引文中也有较大增长。因而在聚合时应考虑根据以上特征对不同国家或地区的来源网站赋予不同权重。
(3)从资源利用深度来看,URL深度的持续增加反映出图情学者对网络学术资源探索和利用深度的逐步提高。因而相关网站主机的子目录资源在聚合时更应得到重视。
参考文献:
[1] 黄奇奇,邓仲华.高校图书馆网络信息资源利用现状及评价体系研究——以推荐学术站点为例[J]. 图书馆学研究, 2013
(22):44-49.
[2] 苏新宁.大数据时代数字图书馆面临的机遇和挑战[J].中国图书馆学报,2015(6):4-12.
[3] Chen C,Luo B,Chiu K,et al.The preferences of authors of Chinese library and information science journal articles in citing Internet sources[J].Library & Information Science Research,2014,36(3-4):163-170.
[4] Rumsey,Mary.Runaway train:Problems of permanence,accessibility,and stability in the use of web sources in law review citations[J].Law Library Journal,2002,94(1):27-39.
[5] Zhang,Yin.Scholarly use of Internet-based electronic resources[J].Journal of the American Society for Information Science & Technology,2013,52(8):628-654.
[6] Herring S D.Use of Electronic Resources in Scholarly Electronic Journals:A Citation Analysis[J].College & Research Libraries,2002,63(63):334-340.
[7] Kousha K,Thelwall M,Rezaie S.Using the Web for research evaluation:The Integrated Online Impact indicator[J].Journal of Informetrics,2010,4(1):124-135.
[8] Yang S,Qiu J,Xiong Z.An empirical study on the utilization of web academic resources in humanities and social sciences based on web citations[J].Scientometrics,2010,84(1):1-19.
[9] Yang S,Han R,Ding J,et al.The distribution of Web citations[J].Information Processing & Management,2012,48(4):779-790.
[10] 张洋,张洁.近年来图书情报期刊引用网络文献的计量分析[J].图书情报工作,2010,54(2):40-44.
[11] 丁敬达,杨思洛.国内图书情报学期刊网络引文的类型、分布与可追溯性分析[J].图书情报工作,2012,56(24):60-64.
[12] 牟佩,刘文娟,梁双双.图书情报学领域网络引文现状分析[J].图书馆论坛,2013,33(3):69-73.
[13] 曹树金,李洁娜.我国图书情报领域研究者对网络信息资源的利用分析[J].情报学报,2014(9):994-1008.
[14] Sadat-Moosavi A,Tajeddini O.Accessibility of online resources cited in scholarly LIS journals: A study of Emerald ISI-ranked journals[J].Aslib Proceedings,2012,64(2):178-192.
[15] Tajeddini O,Azimi A,Sadatmoosavi A,et al.Death of web citations:a serious alarm for authors[J].Malaysian Journal of Library & Information Science,2011(16):17-29.
[16] 吴淑娟,王宪洪,蒋玲.基于硕博士论文的网络免费学术资源引文分析与研究——以北京地区高校为例[J].大学图书馆学报,2014,32(2):85-91.
[17] 丁敬达.国内档案学期刊网络引文的类型和相关特征分析——以2002-2011年《档案学通讯》、《档案学研究》为例[J].档案学通讯,2012(6):8-11.
[18] 中国互联网络信息中心.第36次中国互联网络发展状况统计报告[EB/OL].[2016-03-25].http://www.cnnic.net.cn/hlw
fzyj/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf.
[19] Yang S,Han R,Ding J,et al.The distribution of Web citations[J].Information Processing & Management,2012,48(4):779-790.
作者简介:盛东方(1988-),女,南京大学信息管理学院博士研究生;孟凡赛(1991-),男,南京大学信息管理学院硕士研究生。
关键词:网络学术资源;资源聚合;学科服务;图书情报
中图分类号: G250.252 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016060
The Characteristic and Trend of Web Academic Resources' Utilization in the Field of Library and Information Science: Research Based on Citation Analysis
Abstract The utilization behavior of researchers have been changed since a surge of web academic resources in big data era. The new characteristic and trend of web academic resources' utilization in study of Library and Information Science are investigated in this paper. Citation analysis method is used to analyze the citation data from 2010 to 2014 of four top journals in this field in China. The results show that (a) Chinese LIS scholars further improved the utilization of web academic resources in recent five years; (b) LIS researchers indicated a strong preference for citing web sources which are non-scholar resources, deep resources or resources from specific countries.
Key words web academic resources;resource aggregation;subject service;library and information
1 引言
网络信息资源中存在着大量对科研工作极具参考价值的学术信息[1],而大数据时代更推动了网络学术资源迅速增长[2]。网络学术资源的价值逐渐被广泛认可,并越来越多的出现在以学术论文为代表的科研成果中。Chen C等[3]研究指出,对网络引文进行分析有助于研究者认识他们的引文习惯和模式,并能更好地评估引文证据的可靠性。基于此,一些学者通过引文分析的方法试图探求科研工作者对网络学术资源的利用行为及其规律。国外学者对这一现象关注较早,其既有对单一学科的研究[4-5],又有对跨学科的比较分析[6-8]。Yang S等[9]研究对比了不同国家的研究样本后发现,中国学者对网络学术资源的利用程度偏低。国内研究则大多集中在图情学科领域,如张洋、张洁[10]分析了2003-2007年间我国四种图情类期刊的刊载论文引文数据,从网络引文总数、篇平均网络引文量、域名分类和作者情况等特征量对网络学术资源的利用情况进行了探究;丁敬达、杨思洛[11]从网络引文的类型、分布与可追溯性角度对四种图情核心期刊2005-2010年的引文数据进行研究;牟佩等[12]对2007-2011年图情领域的网络引文数据予以研究;曹树金、李洁娜[13]在图情期刊论文的基础上补充了会议论文和博/硕士学位论文作为计量分析的对象。
综观以上研究发现,样本数据大多集中在2010年之前,尚未有针对近五年来图书情报领域网络学术资源利用现状与趋势的研究。但大数据浪潮的兴起极大地改变了网络学术资源的体量、种类、更新速度以及价值,而其利用行为和规律的变化并没有被发现和把握。上述这些以频数统计为主、缺乏对数据深层挖掘的研究,使得一些潜在的关系难以被揭示。因而,笔者认为对近年来图书情报领域网络学术资源利用情况进行研究以指导相关资源聚合、导航等服务工作的展开,具有必要性和迫切性。
2 数据来源
本文选取中文社会科学引文索引(CSSCI)公布的《CSSCI(2014-2015)来源期刊拟收录目录》中收录的4种图情领域权威期刊《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》以及《情报学报》作为样本,研究其近五年(2010-2014年)刊载的学术论文引文情况。
考虑到数据的可获取性和规范性,首先确定万方数据库为数据源,在学术期刊全文数据库中采用高级检索方式将“期刊-刊名”检索字段分别限定为上述四种期刊,时间限定为“2010年-2014年”,对目标文献进行检索。而后通过编写的爬虫程序抓取文章简介页面的参考文献和著录信息。数据采集时间为2015年11月18日至11月22日,剔除期刊中的新闻、通告、快报、简讯、卷首语等非研究性文章,并辅以人工检查后,共得到文献4763篇,其中《中国图书馆学报》350篇、《大学图书馆学报》646篇、《图书情报工作》3022篇、《情报学报》745篇①。之后利用Excel2010和SPSS18.0统计分析工具对数据进行分析。 3 分析与讨论
3.1 总体描述
本文获取的含引文论文数(a)共4763篇,包含引文(C)89263条,篇均引文量(C/a)为18.74。其中,含网络引文的论文(Wa)2948篇,网络引文(W)15216条,篇均网络引文量(W/a)为3.19条,网络引文在引文总量中的占比(W/C)为17.05%,含网络引文的论文在论文总量中的占比(Wa/a)为61.89%(见表1)。尽管与Sadat-Moosavi 等[14]对Emerald收录的四个图书情报领域顶级期刊的研究结论在“篇均网络引文量”和“网络引文在引文总量中的占比”②这两个指标上仍存在差距。但对比国内学者丁敬达、杨思洛[9]对同样四种期刊2005-2010年的刊载数据研究结果③,发现统计数据在“篇均网络引文量”和“含网络引文的论文在论文总量中的占比”两个指标上有较大提高,说明网络学术资源在我国图情学者中的认可程度逐步提升。特别地,“含网络引文的论文在论文总量中的占比”这一指标更是进一步贴近了Tajeddini等人[15]对国外六种图情领域顶级期刊的研究结论④,说明国内学者对网络学术资源的重视程度与利用能力正逐步向国际水平靠拢。
3.2 网络引文的期刊分析
从统计结果可以看出,除发文量和单篇引文量外,各期刊在篇均网络引文量、网络引文在引文总量中的占比、含网络引文的论文在论文总量中的占比这三项指标上差别较大。为客观地反映出各期刊刊载论文对网络引文的利用程度,本文借鉴吴淑娟等[16]在研究北京地区高校硕博士论文网络资源利用情况时使用的方差分析方法进行进一步分析。为避免期刊间引文数量总体差异的影响,本文选取网络引文在引文总量中的占比(W/C)作为分析对象。
首先,对四组数据进行正态性检验和方差同质性检验,Kolmogorov-Smirnov检验表明数据不符合正态分布,Levene统计量的值为152.972,p值小于0.01,拒绝原假设,认为四个组的数据不满足方差齐性的前提条件。故采用非参数统计中的Kruskal-Wallis检验对各期刊的W/C是否存在显著性差异进行考察,结果见表2,卡方统计量为175.944,p值小于0.01,拒绝原假设,表明不同期刊的W/C具有显著性差异。进一步了解具体是哪些期刊与其它期刊在W/C上存在显著差异,采用未假定方差齐性的多重比较法分析,结果见表3。由于当p值小于显著性水平0.05时,表明期刊之间存在显著性差异,结合四种期刊W/C数据的均值图(见图1),得到如下结论:
(1)《大学图书馆学报》的网络引文在引文总量中的占比显著高于除《中国图书馆学报》之外的其它两种期刊;
(2)《情报学报》的网络引文在引文总量中的占比显著低于其它三种期刊;
(3)《图书情报工作》和《中国图书馆学报》的网络引文在引文总量中的占比没有显著差异。
3.3 网络引文的年度分析
从2010-2014年样本期刊刊载论文的网络引文年度分布可以看出,网络引文数(W)、网络引文在引文总量中的占比(W/C)以及含网络引文的论文在论文总量中的占比(Wa/a)这三项数据大致呈现上升的
趋势,而篇均网络引文量(W/a)更是由2010年的2.3
篇逐年增加到2014年的4.46篇(见表4)。这反映出网络学术资源对本领域学术研究的影响作用正不断加深。为进一步了解网络学术资源利用情况的年度变化规律,考虑剔除掉年度发文量和单篇引文量的影响,本文选取网络引文在引文总量中的占比(W/C)这一指标进行深入考察。
首先,对五组数据进行正态性检验和方差同质性检验,Kolmogorov-Smirnov检验表明数据不符合正态分布,Levene统计量的值为40.944,p值小于0.01,拒绝原假设,认为五个组不满足方差齐性的前提条件。故采用非参数统计中的Kruskal-Wallis检验对各年度的W/C是否存在显著性差异进行考察,结果(见表5),卡方统计量为79.756,p值小于0.01,拒绝原假设,表明不同年度的W/C具有显著性差异。进而采用未假定方差齐性的多重比较法分析,结果见表6。由于当p值小于显著性水平0.05时,表明年度之间存在显著性差异,结合年度W/C数据的均值图(见图2)得到如下结论:
(1)2013年网络引文在引文总量中的占比显著高于前三年(2010-2012年);
(2)2010年和2011年网络引文在引文总量中的占比显著低于后三年(2012-2014年);
(3)2012年与2014年网络引文在引文总量中的占比没有显著差异。
(4)2014年与2013年网络引文在引文总量中的占比没有显著差异。
注:a. Kruskal Wallis 检验;b. 分组变量: 年度
3.4 来源网站类型分析
按照域名可以将常见学术相关网站分为7 类: .com(工商企业)、.org(非营利组织)、.net(网络机构)、.edu(教育)、.gov(政府)、.ac(学术)、.int(国际组织)[17]。将2010-2014年四种期刊各类型网站引文数据进行整理,得到单篇论文中不同类型网站引文占全部网络引文比重的均值图(见图3)。可以看出,平均被引用比重最高的四类网站类型由高到低分别为.com、.org、.edu和.gov,这与中国互联网信息中心发布的《第36 次中国互联网络发展状况调查统计报告》[18]中的中国域名分类统计结果(.com>.net>.ac>.org)有较大差异,表明不同类型的网站提供资源的学术价值和被认可程度存在差异。从学术引文角度来看,本结论与两份分别针对2005-2010年(.org>.com>. edu>.gov)[11]和2007-2011年(.com>.edu>.org>.gov)[12]图情领域引文的研究结果也存在一定区别,表现为工商企业类和非营利组织类网站引用比例的进一步提升,反映出我国图书情报领域研究注重与市场贴合的趋势。 对七组的数据进行正态分布检验和方差同质性检验,Kolmogorov-Smirnov检验表明数据不符合正态分布,Levene统计量的值为1265.620,p值小于0.01,拒绝原假设,认为七个组不满足方差齐性的前提条件。故采用非参数统计中的Kruskal-Wallis检验对各类型来源网站数据是否存在显著性差异进行考察,结果见表7,卡方统计量为3050.376,p值小于0.01,拒绝原假设,表明各类型来源网站数据具有显著性差异。采用未假定方差齐性的多重比较法分析,结果见表8。由于当p值小于显著性水平0.05时,表明网站类型之间存在显著性差异,结合单篇论文中不同类型网站引文占全部网络引文的均值图(见图3)得到如下结论:
(1)来源于工商企业网站的引文数显著高于其它网站;
(2)来源于国际组织网站的引文数显著低于其它网站;
(3)来源于网络机构和学术网站的引文数没有显著差异。
注:a. Kruskal Wallis 检验;b. 分组变量: 域名
3.5 资源来源地区分析
除国际域名(如.com、.net)和中国域名(.cn)之外,网络引文中还多次出现其它国家或地区的域名,本文选取一项针对2010-2012年图情领域高被引域名分布研究[13] 的前十位国家或地区域名作为研究对象,探索不同来源国家或地区引文间的利用差异以及变动情况。对这十个国家或地区的数据进行统计,得到网络引文的频次图(见图4)。与2010-2012年的研究结果比较,发现来源于日本的网络引文频次有较大幅度的上升,其次是澳大利亚。
进一步对十组数据进行正态分布检验和方差同
质性检验,Kolmogorov-Smirnov检验表明数据不符合
正态分布,Levene统计量的值为138.154,p值小于
前提条件。故采用非参数统计中的Kruskal-Wallis检
0.01,拒绝原假设,认为十组数据不满足方差齐性的验对各来源国家或地区引文数据是否存在显著性差异进行考察,结果见表9,卡方统计量为817.286,p值小于0.01,拒绝原假设,表明各来源国家或地区数据具有显著性差异。采用未假定方差齐性的多重比较法分析,结果显示十个国家或地区按引用频次由高到低分别是英国、德国、台湾、加拿大、澳大利亚、意大利、香港、美国、日本、法国。(见表10)。由于当p值小于显著性水平0.05时,表明国家或地区之间存在显著性差异,结合十个国家或地区来源的网络引文频次(见图4)得到如下结论:
(1)来源于英国的引文数显著高于其它国家和地区;
(2)来源于意大利的引文数显著低于除美国、法国之外的其它网站;
(3)来源于德国、台湾、加拿大、澳大利亚、香港和日本的引文数没有显著差异。
3.6 资源利用深度分析
URL统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示。Yang等[19]指出,可以通过“/”在URL中出现的次数衡量URL的深度,即每增加一个“/”,URL的深度加1。被引URL的深度可以反映出科研工作者对以网站为载体的网络学术资源的利用深度[13]。故本文尝试对网络引文数据样本的URL深度进行统计分析,以期揭示我国图情学者对网络学术资源的利用深度规律。统计发现,URL深度为3的引文最多,其次是深度为2和4的,URL深度最大达到16,但从9开始,引文量明显减少(见图5)。
进一步按年度整理各URL深度引文在全部引文中的占比,观察其年度变化。由于URL深度大于8的数据量较少,本文将URL深度为9-16的数据合并统计。根据统计数据可知,2010年、2011年URL深度为2的引文占比最高,2012-2014年则是URL深度为3的引文。从区间上来看,URL深度小于3的引文比例有所减少,尤其是URL深度为1的引文大幅下降,相比之下,URL深度大于2的引文比例增多,URL深度大于8的引文更是逐年增加(见表11)。这一定程度上反映出图情学者对网络学术资源探索和利用深度的逐步增加。
4 结论与启示
本文以2010-2014年图书情报领域四种权威期刊的引文数据为研究样本,通过定量的引文分析方法揭示大数据时代我国图情学者对网络学术资源利用的情况与新趋势。
整体来看,尽管五年前本领域研究者已发现网络引文的增长以及学者对网络学术资源利用意识的提高,这一趋势在大数据时代没有改变甚至更为明显。虽然作为研究样本的四个期刊由于载文量、篇幅限制、主题风格等因素导致了指标间的差异较大,但总体而言,网络学术资源较之以往更多的出现在图情领域的研究论文中,一方面表现为利用网络学术资源的论文占比的增长;另一方面表现为单篇论文中的网络引文量的增长,且这两项指标的增长幅度都超过了五年前。可见,我国图情领域学者对网络学术资源的认可程度进一步提高。可以推测,大数据环境下随着网络学术资源的激增和资源获取成本的降低,研究者对学术资源的获取与利用行为、习惯已发生了一定程度的变化,这一变化将伴随着资源数字化浪潮愈加深刻。但是,需要承认的是,大数据也会带来网络学术资源的认知超载,甚至导致科研工作过程中的信息迷航。为提高学术资源获取的便利性,建设与开展面向学科领域、服务科研活动的网络学术资源深度聚合与服务则显得尤为迫切与重要。而为提高学术资源获取的精准性,学科服务主体应充分把握大数据环境下科研工作者对网络学术资源的利用偏好与特征。
本研究发现近年来我国图情学者的网络学术资源利用行为呈现出以下突出的特征:
(1)从网站类型来看,我国图情学者对不同类型的网站提供的网络学术资源在利用上呈现出一定的选择性。这侧面反映出各类型网站提供资源的学术性、利用价值和可获取性以及研究者偏好上的差异。相较以往,以工商企业类、非营利组织类和政府类为代表的“非学术类”网站资源在图情研究中的作用更加突出,这反映出我国图情学者在研究过程中越来越重视产业资讯、行业数据与政策法规的价值,使图情研究更加贴合市场热点。因而,在对网络资源进行聚合时,不仅要考虑传统的“学术”类网站,更要考虑一些诸如政策类、财经类的“非学术”高被引网站,而此类资源常表现出的实时性和动态性则是聚合时的难点与关键点。 (2)从资源来源地区来看,除了来自中国大陆地区网站的资源外,大量的其它国家或地区的网站资源出现在我国图情学者的研究中,表明其外文资源利用意识与能力的提升。在本文研究的十个国家或地区中,英国网站资源被引频次显著高于其它国家或地区,而来自于日本和澳大利亚的网络学术资源在近几年我国图情研究的引文中也有较大增长。因而在聚合时应考虑根据以上特征对不同国家或地区的来源网站赋予不同权重。
(3)从资源利用深度来看,URL深度的持续增加反映出图情学者对网络学术资源探索和利用深度的逐步提高。因而相关网站主机的子目录资源在聚合时更应得到重视。
参考文献:
[1] 黄奇奇,邓仲华.高校图书馆网络信息资源利用现状及评价体系研究——以推荐学术站点为例[J]. 图书馆学研究, 2013
(22):44-49.
[2] 苏新宁.大数据时代数字图书馆面临的机遇和挑战[J].中国图书馆学报,2015(6):4-12.
[3] Chen C,Luo B,Chiu K,et al.The preferences of authors of Chinese library and information science journal articles in citing Internet sources[J].Library & Information Science Research,2014,36(3-4):163-170.
[4] Rumsey,Mary.Runaway train:Problems of permanence,accessibility,and stability in the use of web sources in law review citations[J].Law Library Journal,2002,94(1):27-39.
[5] Zhang,Yin.Scholarly use of Internet-based electronic resources[J].Journal of the American Society for Information Science & Technology,2013,52(8):628-654.
[6] Herring S D.Use of Electronic Resources in Scholarly Electronic Journals:A Citation Analysis[J].College & Research Libraries,2002,63(63):334-340.
[7] Kousha K,Thelwall M,Rezaie S.Using the Web for research evaluation:The Integrated Online Impact indicator[J].Journal of Informetrics,2010,4(1):124-135.
[8] Yang S,Qiu J,Xiong Z.An empirical study on the utilization of web academic resources in humanities and social sciences based on web citations[J].Scientometrics,2010,84(1):1-19.
[9] Yang S,Han R,Ding J,et al.The distribution of Web citations[J].Information Processing & Management,2012,48(4):779-790.
[10] 张洋,张洁.近年来图书情报期刊引用网络文献的计量分析[J].图书情报工作,2010,54(2):40-44.
[11] 丁敬达,杨思洛.国内图书情报学期刊网络引文的类型、分布与可追溯性分析[J].图书情报工作,2012,56(24):60-64.
[12] 牟佩,刘文娟,梁双双.图书情报学领域网络引文现状分析[J].图书馆论坛,2013,33(3):69-73.
[13] 曹树金,李洁娜.我国图书情报领域研究者对网络信息资源的利用分析[J].情报学报,2014(9):994-1008.
[14] Sadat-Moosavi A,Tajeddini O.Accessibility of online resources cited in scholarly LIS journals: A study of Emerald ISI-ranked journals[J].Aslib Proceedings,2012,64(2):178-192.
[15] Tajeddini O,Azimi A,Sadatmoosavi A,et al.Death of web citations:a serious alarm for authors[J].Malaysian Journal of Library & Information Science,2011(16):17-29.
[16] 吴淑娟,王宪洪,蒋玲.基于硕博士论文的网络免费学术资源引文分析与研究——以北京地区高校为例[J].大学图书馆学报,2014,32(2):85-91.
[17] 丁敬达.国内档案学期刊网络引文的类型和相关特征分析——以2002-2011年《档案学通讯》、《档案学研究》为例[J].档案学通讯,2012(6):8-11.
[18] 中国互联网络信息中心.第36次中国互联网络发展状况统计报告[EB/OL].[2016-03-25].http://www.cnnic.net.cn/hlw
fzyj/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf.
[19] Yang S,Han R,Ding J,et al.The distribution of Web citations[J].Information Processing & Management,2012,48(4):779-790.
作者简介:盛东方(1988-),女,南京大学信息管理学院博士研究生;孟凡赛(1991-),男,南京大学信息管理学院硕士研究生。