论文部分内容阅读
随着科学技术的发展,科技论文数量迅速增加。同时,越来越多的科研人员选择通过互联网寻找科技文献支持他们的前期调研工作。目前,人们一般通过谷歌学术、知网等学术文献检索平台找寻文献,也有很多为了解决信息过载问题的科技文献推荐平台应运而生。本文在对很多推荐算法进行调研和分析后,把科技文献相互引用而生成的引文网络作为切入点,提出了一种新颖的基于语言模型的科技论文推荐方法。本文主要包括以下三个方面的工作:(1)简要介绍了科技论文推荐的关键技术、语言模型与词向量的相关概念和应用,分析了引文网络的价值和应用,利用引文上下文和自然语言结构上的相似性,首次提出了引文语句的概念,将科技论文建模为引文语句中的单词,进而可以采用词向量模型来描述科技论文。(2)在引文语句的基础上,提出了 PaperLinkRank算法,利用神经网络语言模型工具word2vec训练引文语句并得到了模型。在通用的DBLP数据集和CiteSeer数据集上设计了仿真实验证明这一方法能够很好地完成推荐任务,并和其他推荐算法就覆盖率、排序精确度、平均倒数排名等指标进行了对比。实验结果表明基于引文网络的语言模型科技论文推荐系统有比较好的表现,与传统协同过滤方法相比较大提高了 F1指标,与PageRank等相比,在推荐列表长度一定时MMR提高15%左右,并且在多样性方面有更好的表现。(3)设计并实现了一个科研服务平台的推荐模块,重点研究个性化推荐的过程,隐式采集用户行为数据并对数据进行清理,分析了用户行为的重要程度来为数据分配权重。目前,系统收集了 300余万篇中外科技文献,已经开发完成并处于试用阶段。