论文部分内容阅读
【摘要】以CNKI为数据源,从发文基本状况、作者统计、引文分析三方面对2008-2012年国内58篇关联数据研究论文进行文献计量分析,旨在揭示近5年国内关联数据的研究状况,为相关研究提供参考。
【关键词】关联数据 文献计量分析 CNKI
引言
关联数据是顺应Web技术从文档网络过渡到数据网络趋势而产生、用来发布和联接各类数据的规范[1-2],旨在构建计算机可理解的语义数据网络,而非只有人才能读懂的文档网络,故关联数据可看作是语义万维网的简化实现[1,3],具有重要的研究意义。
本文通过对国内关联数据研究论文进行文献计量分析,揭示国内关联数据研究状况,为相关研究提供参考。具体以Excel为统计工具,同时辅以EndNote,以CNKI为数据源,以“关联数据”为关键词,在题名中进行检索,检索时间段为2008-2012年,截至2012年9月10日,共检索到82篇文献,剔除相关度不高的文献,实际有效文献为58篇。
发文基本状况分析
2.1 发文地区分布分析
考察关联数据研究的地区分布有利于了解国内研究关联数据的活跃区,并为地域性合作研究提供依据。笔者统计了54篇文献(其余4篇不含地区字段)第一作者所在地域(见表1)。可以看出,国内关联数据研究的地区分布较集中,北京和上海两地发文合计20篇,占总量的34.48%,说明两地高度重视“关联数据”研究并在该领域具有较强实力;北京地区以13篇发文量名列第一,究其原因,在政治、经济和文化方面,北京的中心地位不可忽略;在学术氛围方面,北京有一大批学术实力雄厚的高校、研究机构[4]。上海以7篇发文量位居第二,其中,以上海图书馆为代表的一批研究机构和以刘炜为代表的一批科研人员起着极其重要的作用。此外,沿海等经济发达地区对关联数据的研究相较于中西部地区显得更加活跃,印证了经济在科研方面的现实影响力。
2.2 发文机构分布分析
机构分布可大致描绘国内关联数据的研究力量分布,为相关研究机构合作、交流提供依据。笔者通过分析54篇文献(其余4篇无作者)的第一作者的第一单位,发现有39家研究机构发表了关联数据相关论文,发文量在2篇及以上的机构有6家,占总量的15.38%,详见表2。其中,中国科学院国家科学图书馆发文量为7篇,中国科学技术信息研究所发文量为4篇,可见,关联数据研究已引起国内一些科研机构的重视。各类机构发文量统计结果见表3,发文百分比分布见图1。可见,以中国科学院国家科学图书馆为代表的图书馆及高校科研机构在关联数据研究方面实力较雄厚,成为推动该领域发展的主导力量和主要研究机构,并为该领域研究奠定了坚实基础。
2.3 发文基金论文比分析
由于重大基金项目的负责人通常具有较高学术造诣,项目团队成员具有较强科研能力,且项目本身有较强团队性,研究时间和经费相对有保证,因此,基金论文比可反映国内关联数据研究的学术水平、受资助与受关注情况[4-5],具体见表4。由表4可看出,受国家基金资助的有15篇,受其他基金资助的有12篇,国家基金论文所占百分比为25.86%,基金论文所占百分比为46.55%。可见,2008-2012年,国家基金论文数所占比例均较高,说明国家高度重视关联数据研究。
2.4 发文年度分布分析
发文年度分布可在一定程度上反映具体研究领域的研究状况、研究水平、发展速度及发展阶段。2008-2012年,国内关联数据相关文献共58篇,年均发文量为11.6篇,发文年度分布趋势见图2,年度分布见表5。Gompertz生长曲线模型将文献增长分为萌芽(文献增长较慢)、发展(文献急剧增长)、成熟(文献增长速度趋缓)、饱和(文献增长速度为 0)4个阶段[6]。根据此模型,结合表5和图2,笔者将国内关联数据至今的发展历程分为两个阶段:2008-2009年为萌芽阶段,发文数量占论文总量的6.9%;2010-2012年为发展阶段,发文数量占论文总量的93.1%,论文增长速度较快,研究者从不同角度展开研究,应用领域不断扩展,学科交叉性增强。
2.5 发文期刊分布分析
发文期刊分布分析旨在了解期刊特点,确定研究领域的核心期刊,为引导读者阅读、搜集及管理文献提供依据[7]。根据统计,54篇期刊论文(除4篇学位论文)共刊载在22种刊物上(见表6),其中载文量最多的是《现代图书情报技术》(11篇,占总期刊论文的20.37%)。载文量排名前8的期刊合计载文量占期刊论文总量的74.07%;发文期刊集中在图书情报领域;《农业网络信息》等农业科学类期刊也开始涉及关联数据研究,说明关联数据研究领域正在扩展。
布拉德福定律将刊载某研究领域论文的期刊分为核心区、相关区、离散区,当各区论文数大致相等时,核心区、相关区、离散区期刊数近似成1:n:n2关系[8-9]。笔者根据表6将期刊按载文量分成核心区(载文量为7篇以上)、相关区(载文量在3-6篇之间)、离散区(载文量为2篇及以下)3个区域(见表7)。3个区域期刊数之比为2:4:16,约简为1:2:8,可近似为1:3:9,即布拉福德离散系数为3。3个区的平均载文密度分别为9.0、4.5、1.1,故该领域期刊核心效应非常明显。
2.6 发文关键词词频分析
通过关键词词频分析可快速了解具体领域的研究热点,笔者用EndNote统计共得124个关键词(关键词总频次为216),出现频次在两次及以上的关键词见表8,其中,“关联数据”、“语义网”、“图书馆”、“RDF”、“数据网络”、“D2R”、“元数据”出现频次较高,占总量的41.67%,可见,这些关键词是国内关联数据领域的研究热点。
作者统计
3.1 高产作者分析
作者发文量可揭示作者对具体领域研究的持续性、深度及贡献大小[10],通过统计(仅针对第一作者),笔者发现54篇文献(其余4篇无作者)共涉及90位作者,高产作者见表9。核心作者是活跃在具体研究领域的专业人员,其凭借独到视角及新颖观点而极具代表性。根据普赖斯定律,核心作者群的发文量应占文献总量的50%,核心作者最低发文量m≌0.749* ( 是发文最多作者的发文量)[10]。根据表9,可得核心作者的发文量应为2篇及以上(具体涉及7位作者),核心作者累计发文18篇,占论文总量的33.33%,与普赖斯提出的50%相差较远,说明国内关联数据研究领域“作者较多,核心作者少,发文量低”,尚未形成稳定的核心作者群。 3.2 合著统计分析
高质量学术论文的高标准要求决定了当今作者的合作之路[4]。2008-2012年国内关联数据研究论文合著状况见表10,国内关联数据研究基本保持稳定的高度合作,合著率在50%以上,平均合著率为53.45%,其中2人合作最普遍,占论文总量的29.63%,可见关联数据研究具有高难度性、内外交叉渗透性、学术前沿性和广泛应用性。
4.1 引用分析
2008-2012年国内关联数据引文状况见表11,篇均引用量为19.1。从中外文引用文献比来看,近5年中文引用率较低,平均中外引用文献比为0.45:1,表明国外关联数据发展更快,国内科研人员利用和吸收外文文献能力较强,2012年时该值达到0.87:1,表明近年来国内关联数据研究发展迅速,科研队伍不断壮大,论文数量增长较快。但国内关联数据研究要想在国际上占据一席之地,除研究吸收国外研究成果之外,还必须有自己的独到之处。
4.2 被引分析
论文被引用状况在某种程度上可衡量论文价值,国内关联数据研究论文被引状况见表12,共30篇论文被引用,被引次数为154次,平均被引频次为5.1。其中被引频次最高的是黄永文的《关联数据在图书馆中的应用研究综述》,共被引19次。表13列出了被引次数超过6次的论文(共10篇论文,被引频次共106次,占被引总量的68.83%,其中4篇刊载在核心期刊上),可见,国内关联数据文献被引频次较高,具有较高的学术影响力,高被引文献较集中,存在学者公认的较权威文献。
结束语
顺应大数据和语义Web发展趋势,国内关联数据研究正处于快速发展阶段,已引起一些研究机构及科研人员的重视,其研究区域正逐布扩大,国家支持力度越来越大,且发文质量较高。但目前国内关联数据相关研究较少,且这些论文大多处于理论探索阶段,缺乏足够的实践支持;虽然研究关联数据的核心作者群已见雏形,但尚未完全形成。因此,国内关联数据研究必须加大力度,立足实践,不断注入新的研究力量,形成以核心作者群为主导力量的研究团队。
[参考文献]
[1] 刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011(2):5-12.
[2] 朝乐门,张勇,刑晓春.DBpedia及其典型应用[J].现代图书情报技术,2011(3):80-87.
[3] 谭洁清.关联数据的简介与进展[J].信息与电脑(理论版),2011(1):103-103,106.
[4] 刘玉梅,王正兴.“十一五”期间《中国图书馆学报》文献计量分析[J].情报科学,2012,30(1):81-86.
[5] 刘圣君,屈宝强.我国图书馆联盟研究的文献计量分析[J].情报科学,2011,29(3):396-400,468.
[6] 陆晓红.基于 Web of Science 的知识研究文献计量分析[J].情报科学,2009,27(12):1848-1852.
[7] 何琳,喻文.我国社区图书馆研究论文计量分析[J].图书馆学刊,2007(1):80-83.
[8] 胡承立,张韦.基于CSSCI的中国政府网站研究现状文献计量分析[J].现代情报,2011,31(12):159-165.
[9] 陈氢,陈梅花.信息检索与利用[M].北京:清华大学出版社,2012.
[10] 樊长军,李小青.近10年我国社区图书馆研究文献计量分析[J].图书馆学刊,2011(9):130-133.
【关键词】关联数据 文献计量分析 CNKI
引言
关联数据是顺应Web技术从文档网络过渡到数据网络趋势而产生、用来发布和联接各类数据的规范[1-2],旨在构建计算机可理解的语义数据网络,而非只有人才能读懂的文档网络,故关联数据可看作是语义万维网的简化实现[1,3],具有重要的研究意义。
本文通过对国内关联数据研究论文进行文献计量分析,揭示国内关联数据研究状况,为相关研究提供参考。具体以Excel为统计工具,同时辅以EndNote,以CNKI为数据源,以“关联数据”为关键词,在题名中进行检索,检索时间段为2008-2012年,截至2012年9月10日,共检索到82篇文献,剔除相关度不高的文献,实际有效文献为58篇。
发文基本状况分析
2.1 发文地区分布分析
考察关联数据研究的地区分布有利于了解国内研究关联数据的活跃区,并为地域性合作研究提供依据。笔者统计了54篇文献(其余4篇不含地区字段)第一作者所在地域(见表1)。可以看出,国内关联数据研究的地区分布较集中,北京和上海两地发文合计20篇,占总量的34.48%,说明两地高度重视“关联数据”研究并在该领域具有较强实力;北京地区以13篇发文量名列第一,究其原因,在政治、经济和文化方面,北京的中心地位不可忽略;在学术氛围方面,北京有一大批学术实力雄厚的高校、研究机构[4]。上海以7篇发文量位居第二,其中,以上海图书馆为代表的一批研究机构和以刘炜为代表的一批科研人员起着极其重要的作用。此外,沿海等经济发达地区对关联数据的研究相较于中西部地区显得更加活跃,印证了经济在科研方面的现实影响力。
2.2 发文机构分布分析
机构分布可大致描绘国内关联数据的研究力量分布,为相关研究机构合作、交流提供依据。笔者通过分析54篇文献(其余4篇无作者)的第一作者的第一单位,发现有39家研究机构发表了关联数据相关论文,发文量在2篇及以上的机构有6家,占总量的15.38%,详见表2。其中,中国科学院国家科学图书馆发文量为7篇,中国科学技术信息研究所发文量为4篇,可见,关联数据研究已引起国内一些科研机构的重视。各类机构发文量统计结果见表3,发文百分比分布见图1。可见,以中国科学院国家科学图书馆为代表的图书馆及高校科研机构在关联数据研究方面实力较雄厚,成为推动该领域发展的主导力量和主要研究机构,并为该领域研究奠定了坚实基础。
2.3 发文基金论文比分析
由于重大基金项目的负责人通常具有较高学术造诣,项目团队成员具有较强科研能力,且项目本身有较强团队性,研究时间和经费相对有保证,因此,基金论文比可反映国内关联数据研究的学术水平、受资助与受关注情况[4-5],具体见表4。由表4可看出,受国家基金资助的有15篇,受其他基金资助的有12篇,国家基金论文所占百分比为25.86%,基金论文所占百分比为46.55%。可见,2008-2012年,国家基金论文数所占比例均较高,说明国家高度重视关联数据研究。
2.4 发文年度分布分析
发文年度分布可在一定程度上反映具体研究领域的研究状况、研究水平、发展速度及发展阶段。2008-2012年,国内关联数据相关文献共58篇,年均发文量为11.6篇,发文年度分布趋势见图2,年度分布见表5。Gompertz生长曲线模型将文献增长分为萌芽(文献增长较慢)、发展(文献急剧增长)、成熟(文献增长速度趋缓)、饱和(文献增长速度为 0)4个阶段[6]。根据此模型,结合表5和图2,笔者将国内关联数据至今的发展历程分为两个阶段:2008-2009年为萌芽阶段,发文数量占论文总量的6.9%;2010-2012年为发展阶段,发文数量占论文总量的93.1%,论文增长速度较快,研究者从不同角度展开研究,应用领域不断扩展,学科交叉性增强。
2.5 发文期刊分布分析
发文期刊分布分析旨在了解期刊特点,确定研究领域的核心期刊,为引导读者阅读、搜集及管理文献提供依据[7]。根据统计,54篇期刊论文(除4篇学位论文)共刊载在22种刊物上(见表6),其中载文量最多的是《现代图书情报技术》(11篇,占总期刊论文的20.37%)。载文量排名前8的期刊合计载文量占期刊论文总量的74.07%;发文期刊集中在图书情报领域;《农业网络信息》等农业科学类期刊也开始涉及关联数据研究,说明关联数据研究领域正在扩展。
布拉德福定律将刊载某研究领域论文的期刊分为核心区、相关区、离散区,当各区论文数大致相等时,核心区、相关区、离散区期刊数近似成1:n:n2关系[8-9]。笔者根据表6将期刊按载文量分成核心区(载文量为7篇以上)、相关区(载文量在3-6篇之间)、离散区(载文量为2篇及以下)3个区域(见表7)。3个区域期刊数之比为2:4:16,约简为1:2:8,可近似为1:3:9,即布拉福德离散系数为3。3个区的平均载文密度分别为9.0、4.5、1.1,故该领域期刊核心效应非常明显。
2.6 发文关键词词频分析
通过关键词词频分析可快速了解具体领域的研究热点,笔者用EndNote统计共得124个关键词(关键词总频次为216),出现频次在两次及以上的关键词见表8,其中,“关联数据”、“语义网”、“图书馆”、“RDF”、“数据网络”、“D2R”、“元数据”出现频次较高,占总量的41.67%,可见,这些关键词是国内关联数据领域的研究热点。
作者统计
3.1 高产作者分析
作者发文量可揭示作者对具体领域研究的持续性、深度及贡献大小[10],通过统计(仅针对第一作者),笔者发现54篇文献(其余4篇无作者)共涉及90位作者,高产作者见表9。核心作者是活跃在具体研究领域的专业人员,其凭借独到视角及新颖观点而极具代表性。根据普赖斯定律,核心作者群的发文量应占文献总量的50%,核心作者最低发文量m≌0.749* ( 是发文最多作者的发文量)[10]。根据表9,可得核心作者的发文量应为2篇及以上(具体涉及7位作者),核心作者累计发文18篇,占论文总量的33.33%,与普赖斯提出的50%相差较远,说明国内关联数据研究领域“作者较多,核心作者少,发文量低”,尚未形成稳定的核心作者群。 3.2 合著统计分析
高质量学术论文的高标准要求决定了当今作者的合作之路[4]。2008-2012年国内关联数据研究论文合著状况见表10,国内关联数据研究基本保持稳定的高度合作,合著率在50%以上,平均合著率为53.45%,其中2人合作最普遍,占论文总量的29.63%,可见关联数据研究具有高难度性、内外交叉渗透性、学术前沿性和广泛应用性。
4.1 引用分析
2008-2012年国内关联数据引文状况见表11,篇均引用量为19.1。从中外文引用文献比来看,近5年中文引用率较低,平均中外引用文献比为0.45:1,表明国外关联数据发展更快,国内科研人员利用和吸收外文文献能力较强,2012年时该值达到0.87:1,表明近年来国内关联数据研究发展迅速,科研队伍不断壮大,论文数量增长较快。但国内关联数据研究要想在国际上占据一席之地,除研究吸收国外研究成果之外,还必须有自己的独到之处。
4.2 被引分析
论文被引用状况在某种程度上可衡量论文价值,国内关联数据研究论文被引状况见表12,共30篇论文被引用,被引次数为154次,平均被引频次为5.1。其中被引频次最高的是黄永文的《关联数据在图书馆中的应用研究综述》,共被引19次。表13列出了被引次数超过6次的论文(共10篇论文,被引频次共106次,占被引总量的68.83%,其中4篇刊载在核心期刊上),可见,国内关联数据文献被引频次较高,具有较高的学术影响力,高被引文献较集中,存在学者公认的较权威文献。
结束语
顺应大数据和语义Web发展趋势,国内关联数据研究正处于快速发展阶段,已引起一些研究机构及科研人员的重视,其研究区域正逐布扩大,国家支持力度越来越大,且发文质量较高。但目前国内关联数据相关研究较少,且这些论文大多处于理论探索阶段,缺乏足够的实践支持;虽然研究关联数据的核心作者群已见雏形,但尚未完全形成。因此,国内关联数据研究必须加大力度,立足实践,不断注入新的研究力量,形成以核心作者群为主导力量的研究团队。
[参考文献]
[1] 刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011(2):5-12.
[2] 朝乐门,张勇,刑晓春.DBpedia及其典型应用[J].现代图书情报技术,2011(3):80-87.
[3] 谭洁清.关联数据的简介与进展[J].信息与电脑(理论版),2011(1):103-103,106.
[4] 刘玉梅,王正兴.“十一五”期间《中国图书馆学报》文献计量分析[J].情报科学,2012,30(1):81-86.
[5] 刘圣君,屈宝强.我国图书馆联盟研究的文献计量分析[J].情报科学,2011,29(3):396-400,468.
[6] 陆晓红.基于 Web of Science 的知识研究文献计量分析[J].情报科学,2009,27(12):1848-1852.
[7] 何琳,喻文.我国社区图书馆研究论文计量分析[J].图书馆学刊,2007(1):80-83.
[8] 胡承立,张韦.基于CSSCI的中国政府网站研究现状文献计量分析[J].现代情报,2011,31(12):159-165.
[9] 陈氢,陈梅花.信息检索与利用[M].北京:清华大学出版社,2012.
[10] 樊长军,李小青.近10年我国社区图书馆研究文献计量分析[J].图书馆学刊,2011(9):130-133.