论文部分内容阅读
近年来科学论文的产出数量呈指数增长,但是在海量的论文中只有少量高影响力的论文真正被发掘并利用,往往有一部分具有高潜力的论文会被海量数据所淹没或者长期睡眠,所以迫切需要一种系统化的预测模型来对论文被引频次进行预测,以发掘新发表论文中具有高影响潜力的论文,或发现潜在的睡美人文献,本研究以此为出发点展开研究。 论文被引频次被广泛应用于评估论文的科学影响力的研究中。对论文被引频次进行准确地预测,挖掘高影响力的文章,是文献计量学领域的重要研究内容。现有被引频次预测研究的指标体系大都以传统文献计量学为基础,并没有考虑论文内容方面的影响因素。本研究以此为契机,一方面,通过主题词共现分析分别设计了论文新颖组合率、中等组合率和常规组合率,进而确定论文的新颖性类型。另一方面,通过主题模型形成主题—文本概率矩阵,并以主题概率矩阵的变异系数作为表征主题分散程度的一个因素;通过对论文引文的WoS分类共现网络进行基于中间中心度的社群划分,进而根据论文引文的WoS分类与其父类的映射关系计算布里渊指数,综合其分布情况对论文进行基于布里渊指数的跨领域水平分类。 本文进行了以上两个论文内容方面因素与被引频次的关系研究,研究发现:如果论文知识结构中,新颖性知识组合比较多,同时知识常规性组合也比较多时,论文更容易得到学者的认可,更有可能成为高被引论文,也说明优秀的科学研究往往更注重常规性知识组合与新颖性知识组合的结合运用,而不是简单的知识组合陈列,也不是简单的提出新颖性观点;同时,中等主题分散程度和高领域跨度的论文更有可能成为高被引论文。 确定了论文被引频次受到其研究内容的新颖性、主题分散程度和跨领域性影响之后,本研究运用机器学习方法分别进行基于传统计量指标的预测指标体系与考虑内容新颖性、主题分散程度和跨领域性的指标体系进行单一预测与基于stacking的集成学习预测研究,并对预测结果的准确度与kappa指数进行对比分析。 对比分析发现:在决策树、神经网络、随机森林与支持向量机方法下,考虑论文新颖性水平、主题分散程度和跨领域水平的指标体系较传统计量指标体系的预测效果有显著提升,集成学习的预测效果显著高于单一学习器的预测效果。本研究在论文预测指标体系中创新性的添加了论文内容特征因素,实现了预测准确度与kappa指数的显著提升,经过集成学习之后又有了二次提升。这样可以减少学者们在海量的论文中的筛选与阅读成本,有助于科研工作者更快、更精确地发现高影响力论文;另外,该研究可以缩短高影响潜力论文的“睡眠”时间,丰富了对”睡美人“文献的研究;最后,对于科研人员从事科学研究有一定的启示作用,在选题方面,研究者可以有意识地评估自己自研究的新颖性、内容多样性,捕捉兼顾新颖性与常规性,同时具有研究内容多样性的研究课题。