论文部分内容阅读
随着学术数据的指数级增长以及大数据技术的发展,现有研究已有较为成熟的学术数据获取和预处理的方法。来自不同交叉学科领域的学者们已开展大量关于学术出版物的研究,产生了较多的理论与方法,从而为科学学研究提供了支撑。高引论文被人们普遍认为是潜在的“优秀”科学研究,在科研评价中越来越受各界重视。研究高引论文所具备的客观规律有利于人们更好地理解科学的内部结构,对开展科研工作具有一定指导意义。近年来有关高引论文的研究主要探讨了高引论文与某种因素之间的关联性,例如跨学科、综述、国际合作、参考文献列表长度等因素能否提升一篇论文的被引用数量,从而使论文更容易成为高引论文,此外,还有一部分工作基于高引论文进行了国家、机构、期刊等层面的科研评价。但是,由于大规模学术数据的难以获取、传统图书情报领域难以对其进行处理以及分析等原因,多数高引论文方面的研究存在数据量较小、说服力不强等问题,且通常都未考虑本国引用、国际引用,至今还没有研究探讨本国引用、国际引用等因素对高引论文的影响。因此,本文获取了Web of Science平台上的3千多万篇论文和5亿多条引用关系数据,通过数据预处理,将国家、年份等信息以字典的形式进行表示,引用关系则通过CSR邻接稀疏矩阵表示,从而能够较为高效的分析大规模文献数据,按论文发表年份,筛选出发表5年后总引用数量排名前1%的高引论文作为基础数据,以国家为单位从本国引用对高引论文的影响、国际引用对高引论文的影响和不同国家之间的引用程度等三个方面进行了研究分析:(1)本国引用对中国等12个国家高引论文的影响。到2012年,中国的高引论文数量已经仅次于美国。但若不考虑本国引用,中国国际高引论文数量的世界相对排名将明显下降。通过四种不同的相似性系数,本文量化了不同国家高引论文与国际高引论文的一致性。分析结果表明,本国引用较为明显地增加了中国高引论文的数量,但其他国家这一现象并不显著;通过进一步分析中国高引论文与国际高引论文的差异集,本文发现本国引用对中国高引论文的影响主要集中在化学领域。(2)中国、美国、欧洲三个国家或团体之间的引用对高引论文的影响。当不考虑欧洲与美国之间的所有引用时,世界各国高引论文数量出现较为明显的波动,而当不考虑中国与欧洲或美国之间的所有引用时,除引用删除的对象国家,其他国家高引论文波动不大,该现象意味着欧美国家之间可能存在着引用聚集现象。此外,在中美欧的引用竞争中,中国已经逐渐占据上风,如果中国、美国、欧洲三方互不引用,美国和欧洲损失的高引论文将多于中国,但这其中可能隐藏着一个对中国来说不好的现象——中国越来越倾向于引用欧美国家的文献,而欧美国家却越来越不倾向于引用中国的文献。(3)为了更好地解释(2)中所提出的问题,基于零模型,本文提出一种量化不同国家之间引用程度的方法。首先,本文基于z-score矩阵构建了引用热力图,分析了不同国家的引用聚集性,研究发现,在文献引用层面存在两个较为显著的社团——欧美国家和亚洲国家,社团内部国家具有较高的引用聚集性。然后,对2007~2017年之间不同国家引用程度的规律以及趋势进行了分析,分析结果表明,中国越来越倾向于引用欧美国家的论文,而包括欧美国家在内的大多数国家却越来越不倾向于引用中国的论文,基于中科院JCR期刊分区数据,本文研究了不同国家对中国高水平论文的引用程度,发现整体结论较为稳定,不同国家对中国论文的引用程度仍大致呈现下降趋势。只有正确认识科学研究中的一些客观规律,理解科学内部的构成,才能更快地促进科学的发展。研究高引论文所存在的客观规律具有非常重要的意义,一方面,通过对高引论文影响因素的研究,有利于政府科研路线以及科研评价政策的制定,对于政府科研奖励政策的提出也能起到良好的参考作用。另一方面,研究高引论文的影响因素对于培养科研人员能起到一定的指导作用,能够为科研人员研究方向的选择提供参考。