论文部分内容阅读
致谢是一篇科学论文的有机组成部分,从致谢信息可以看出作者在研究过程中得到的资助和帮助,而这些资助和帮助信息可以从另外一个角度反映作者的研究背景、研究主题和未来的研究方向。直到2008年,Thomson Reuters的Web of Science平台才开始在其记录中增加基金致谢信息,这一新信息为系统地利用文献计量数据提供了 一个新的维度。科学论文中致谢信息的具体内容以及作用是文献计量领域一个新的挑战。到目前为止,国外对于致谢信息的分析才刚刚起步,国内有关这方面的研究却屈指可数,因此研究包含致谢信息的论文特征及这些论文中的致谢信息本身具有一定的实践价值。本研究选择ESI农业科学、微生物学、空间科学3个学科2012-2016年间的论文作为研究对象,通过每年5月更新的ESI期刊列表,在Web of Science平台的SCIE和SSCI数据库中,以来源出版物为检索条件,共获取380529篇论文数据。之后通过自编的Java程序,对这些论文数据进行处理,清理出FX字段和FU字段不为空的纪录共计256841篇,接着作者使用斯坦福大学CoreNLP自然语言处理工具对256841篇论文的FX字段进行NER命名实体识别筛选,最终得到在致谢部分包含有ORGANIZATION和PERSON的论文,共计241583篇。笔者采用文献计量方法,对241583篇论文产出的年代分布、基金资助机构分布、研究主题分布和致谢信息进行了统计分析,揭示了 3个学科论文的特征与差异。笔者在研究中发现,2012-2016年间农业科学领域每年有超过50%的论文包含致谢信息,微生物学领域每年大约有60%的论文包含致谢信息,空间科学领域每年有将近80%的论文包含致谢信息;随着领域论文数量的增加,基金资助机构资助的论文数量也随之增加,然而3个学科的增幅却存在差异,空间科学增幅最大,农业科学增幅其次,增幅最小的是微生物学;伴随着时间的推移,研究热点也随之变化,2012年的出现的主题词在2016年不再出现,取而代之的是与新一轮研究有关的热点词汇,这一现象在微生物学的体现最为明显,其次是农业科学,最后是空间科学。而对于致谢信息部分的分析发现:机构识别和人名识别的情况存在差异,3个学科人名识别的情况,空间科学致谢中提及人名的数量最多,微生物学其次,农业科学较少,表明作者对致谢人员的提及因学科性质的差异有所不同;通过对工具的应用,发现ORGANIZATION和PERSON的识别均存在不同程度的误差,但是PERSON的识别较ORGANIZATION更为精准。论文的主要结论如下,由于学科的差异,不同国家基金资助的学科领域和研究方向存在差异。从研究的样本数据发现,无论美国、西班牙还是加拿大,他们资助的重点是空间科学领域;从研究主题来看,“galaxies:evolution”、“galaxies:active”、“methods:numerical”、“stars:formation”和“methods:data analysis”的论文数量最多,反映这些研究者更加注重研究规范,同时也可能表明他们在研究过程中需要得到基金机构的更多资助以及他们的研究群体庞大,另外一种可能性是,致谢信息中包含了他们的潜在合作者,这也是后续的研究方向之一。本研究的意义主要体现在:结合基金资助机构的信息,可以对包含致谢信息的论文进行计量分析,为基金资助机构研究者和其他相关利益方提供有价值的信息。本研究的不足之处在于选择的学科覆盖不够全面,因此导致样本数据缺乏足够的代表性。作者在数据处理过程当中,由于数据的复杂性原因及人工处理的精度不足,可能会将一些有用的数据过滤掉,因此可能导致研究结果出现偏差。