论文部分内容阅读
引文推荐方法的主要任务是帮助研究者自动并有效地发现与研究者查询信息相关的文献列表。随着大量研究论文的发表,为研究者快速而准确地推荐相关参考文献变得越来越重要。在众多引文推荐方法中,基于图的引文推荐方法因为其能够灵活整合丰富的信息而备受关注,但缺少对论文内容信息的有效利用。本文根据文本向量表示学习的方法,提出两种基于图的方法以解决数据集信息单一问题及缺少上下文信息问题。本文主要工作及成果如下:(1)为解决信息利用单一问题,设计并实现了基于DeepWalk的引文推荐方法。该推荐方法主要包含三个过程。首先,通过引用关系、关键字信息及它们之间的关系构建一个两层图模型,进行论文内容的相似度计算,根据论文内容相似度重新得到邻接矩阵,从而将论文内容信息融合进图节点中;然后,运行带重启的随机游走算法获取上下文节点,利用Skip-gram模型来生成图中节点分布式表示形式;最后,计算目标文献与候选文献之间距离,选取距离最小的N篇文献作为目标查询的推荐文献。通过与PW(PaperWord),APW(Author-Paper-Word)和Node2vec在相同的数据集和相同的评测指标下进行实验对比分析,基于DeepWalk的引文推荐方法在recall@N平均上升约14%,在NDCG@N上平均上升约10%,证明了该方法的较高的预测准确率。(2)为有效利用论文内容上下文信息,设计并实现了基于三层图模型的个性化引文推荐方法。通过论文、作者、关键字三种信息及它们之间的相互关系,构建三层图模型,在不同类型属性层设置不同参数,从而达到区分对待不同类型属性层的目的;利用word2vec技术生成论文内容的向量表示,论文内容相似度通过cosine相似度计算公式获得,融合相关信息生成查询向量,提高了与查询相关的论文的评分,使用带重启的随机游走运行推荐模型,产生最终推荐结果。通过与RTM(Relational Topic Model),LinkPLSA-LDA,PopRank,LDA(Latent Dirichlet Allocation)和CiteRank五种基准方法在相同数据集下进行实验分析,本方法在recall@N上平均上升约7%,在NDCG@N上平均上升约11%。实验结果表明该方法优于其它五种方法,可以获得较好的推荐效果。对(1)中方法和本方法进行实验对比表明,(1)中方法在recall@N和NDCG@N两个评测指标上要好于本方法,证明了(1)中方法获得特征向量表示的有效性。