论文部分内容阅读
近年来跨领域的科研合作对科技发展和学术创新有着积极影响。然而,随着科研人数的日益增长以及学术大数据的形成,研究人员想要寻找自己专业领域之外的合作者变得越来越困难和费时。由于不同的领域之间存在差异,大多数研究者对其它领域并不熟悉,正确地确定其它领域中的研究点和合作者是一个很大的挑战。因此,本文研究如何基于学术大数据自动为科研人员推荐恰当的跨领域合作者。目前已经有一些学者对跨领域的科研合作者推荐问题进行了研究,但这些工作都只注重跨领域的合作主题发现,并没有考虑到来自不同领域的两个研究人员学术水平是否相当。在生产实践中,“门当户对”的合作者往往才是人们的首选。因此,本文假设学术水平相近的研究者更能实现切实可行的跨领域合作,基于这种假设,我们尝试设计一种跨领域的最合适科研合作者推荐算法,该算法同时考虑研究人员学术水平的相似性和研究兴趣的相关性。我们首先需要解决的问题是如何确定来自不同领域的两位研究人员学术水平是否相近。由于不同的学科和领域在学术水平的衡量上存在差异,很难用一个统一的标准去衡量所有的领域。因此,本文引入聚类算法在每个领域内将研究人员进行分组。我们对研究人员的学术水平评价指标和方法进行了全面分析和总结,最终选择学术年龄、发表论文总数、总被引次数、篇均被引次数以及合作者数量这5个指标作为研究人员分组的依据。利用mini batch k-means聚类算法将研究人员按照学术水平分组。然后将各领域的分组一一对应起来,使得对应分组中的研究人员学术水平相当。最后为目标学者推荐与他学术水平相当且研究兴趣最相关的跨领域科研合作者。我们从微软学术图谱数据库中获取生物信息学、数据挖掘和分子生物学三个领域的论文数据,经过处理之后得到实验数据集。在此数据集上对本文提出的算法进行验证,该算法在推荐的准确率、召回率、F1三个方面都有较好的表现。