论文部分内容阅读
随着学术文献数量的急剧增加,帮助科研人员在海量文献中高效地找到所需要的引用文献成了一个迫在眉睫的任务,引用文献推荐技术应运而生,并迅速得到了信息搜索、知识工程等领域研究者的广泛关注。然而,传统文献推荐研究忽视了引用文献推荐任务的时间动态因素,不能准确反映用户真实信息需求,导致引用文献推荐质量下降。本文针对引用文献推荐中信息需求动态变化的特点,首次提出“时序引用文献推荐”(Chronological Citation Recommendation, CCR)方法。CCR构建基于信息需求变迁(Information-need Shifting, InS)的三层建模体系。第一层建模完成时序相关的动态信息抽取和构建:①从文本内容角度,在主题层次上,使用结合有监督学习的动态主题建模(Dynamic Topic Modeling with Supervised Learning, DTM-SL)手段对“时间变化”进行建模;②从引用关系角度,抽取了时间衰减的引用关系信息。第二层建模完成异构动态信息集成和动态推荐特征构建,有两个解决方案:①动态主题/引用影响力模型,采用一个循环迭代模型在不同的时间片上生成一系列的引用文献推荐列表;②基于动态学术信息异构图(Dynamic Scientific Information Heterogenous Graph, DSIHG)的图挖掘方法,利用基于“元路径”的“随机游走”算法,实现异构信息融合和动态推荐特征的构建。第三层建模完成动态推荐特征集成和权重优化,利用基于排序学习的信息需求变体建模(Information-need Variant Modeling based on Learning-to-Rank, InVM-L2R)在不同的时间片上训练了一系列学习模型,建模信息需求变体,对动态特征权重在不同时间片上的变化进行了有效捕捉,并最终生成不同时间片上的推荐列表。通过在跨越60年的美国计算机协会的英文文献语料库上的一系列实验,证明了CCR方法相较于传统文献推荐模型,能够显著提高推荐质量,更有效地帮助使用者获得需要的学术文献。目前CCR已经服务于中美合作的科研项目,将在美国高校的课堂环境中得到应用。CCR将InS纳入研究视野,对文献推荐研究领域是重要的理论创新;CCR方法对比传统的引用文献推荐方法具有显著的优势,这对文献推荐做出了重要的方法创新。CCR对于探索性研究,跨学科研究以及学术综述研究等有重要理论意义和现实意义。