基于文本向量表示学习的引文推荐方法研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:leefenbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
引文推荐方法的主要任务是帮助研究者自动并有效地发现与研究者查询信息相关的文献列表。随着大量研究论文的发表,为研究者快速而准确地推荐相关参考文献变得越来越重要。在众多引文推荐方法中,基于图的引文推荐方法因为其能够灵活整合丰富的信息而备受关注,但缺少对论文内容信息的有效利用。本文根据文本向量表示学习的方法,提出两种基于图的方法以解决数据集信息单一问题及缺少上下文信息问题。本文主要工作及成果如下:(1)为解决信息利用单一问题,设计并实现了基于DeepWalk的引文推荐方法。该推荐方法主要包含三个过程。首先,通过引用关系、关键字信息及它们之间的关系构建一个两层图模型,进行论文内容的相似度计算,根据论文内容相似度重新得到邻接矩阵,从而将论文内容信息融合进图节点中;然后,运行带重启的随机游走算法获取上下文节点,利用Skip-gram模型来生成图中节点分布式表示形式;最后,计算目标文献与候选文献之间距离,选取距离最小的N篇文献作为目标查询的推荐文献。通过与PW(PaperWord),APW(Author-Paper-Word)和Node2vec在相同的数据集和相同的评测指标下进行实验对比分析,基于DeepWalk的引文推荐方法在recall@N平均上升约14%,在NDCG@N上平均上升约10%,证明了该方法的较高的预测准确率。(2)为有效利用论文内容上下文信息,设计并实现了基于三层图模型的个性化引文推荐方法。通过论文、作者、关键字三种信息及它们之间的相互关系,构建三层图模型,在不同类型属性层设置不同参数,从而达到区分对待不同类型属性层的目的;利用word2vec技术生成论文内容的向量表示,论文内容相似度通过cosine相似度计算公式获得,融合相关信息生成查询向量,提高了与查询相关的论文的评分,使用带重启的随机游走运行推荐模型,产生最终推荐结果。通过与RTM(Relational Topic Model),LinkPLSA-LDA,PopRank,LDA(Latent Dirichlet Allocation)和CiteRank五种基准方法在相同数据集下进行实验分析,本方法在recall@N上平均上升约7%,在NDCG@N上平均上升约11%。实验结果表明该方法优于其它五种方法,可以获得较好的推荐效果。对(1)中方法和本方法进行实验对比表明,(1)中方法在recall@N和NDCG@N两个评测指标上要好于本方法,证明了(1)中方法获得特征向量表示的有效性。
其他文献
股骨头坏死已成为骨伤科常见病、疑难病之一,其发病率现在呈明显上升趋势。早期若不进行有效的治疗,则会导致局部坏死骨的塌陷,严重危害人类健康,甚至使其失去劳动能力和生活
<正>油脂减层手印是刑事犯罪现场上出现率较高的一种手印,当罪犯的手与排气扇旁的窗子,凝固状态的油脂,表面有油的工具、零件、菜刀、碗、枪支等接触时都容易形成油脂减层手
高性能混凝土是指利用现代的混凝土技术提高混凝土的施工特性、稳定性、强度及耐久性而得到的性能优越的混凝土。随着建设项目质量要求越来越高,高性能混凝土技术在道路桥梁
对于材料的连接和修复工作而言,机械焊接技术是最为关键也是应用领域极其广泛的工艺手段之一,而实训教学对于掌握机械焊接技术而言又是尤为重要的教学环节。本文提出了目前机
探讨无痛消化内镜下高频电刀手术治疗胃肠息肉的效果及对胃肠道功能的影响。选取2016年1月—2017年12月郑州人民医院手术治疗的胃肠道息肉患者140例进行回顾性分析,根据手术
目的:分析肩关节脱位合并肱骨大结节骨折解剖钢板治疗的临床效果。方法:对26例肩关节脱位合并肱骨大结节骨折患者在臂丛麻醉下手法复位,肿胀减退后行切开复位解剖钢板内固定
多发伤常指由同一致伤因子引起的、机体两处或两处以上解剖部位或器官的损伤,且至少有一处损伤是危及生命的。由于多发伤患者受伤范围广泛,各个部位的伤情重,创伤反应强且持
<正>一、"国际刑法哲学"论题的提出价值论似乎总是带有"反思"、"批判"、"解构"、"清理"或"启蒙"的味道,一股"硫酸味儿"扑面而来。一般而言,价值论的提出与建构,总是为了回答"
烟草甲[Lasioderma serricorne(Fabricius)]为世界性仓储物害虫,也是储烟的主要害虫之一。由于其分布广、繁殖量大、为害严重,国内外对其进行了大量的研究。综述了国内外对烟