论文部分内容阅读
随着信息传播速度的快速提升,可供查阅的科技文献数量也在迅速增加。用户想要在上千条引文查询结果中找到自己需要的结果是一件很困难的事情。查询结果推荐是解决这个问题的方法之一。查询结果推荐根据已有的用户信息,预测出用户可能感兴趣的项目,将这些项目推荐给用户,避免了用户从搜索工具中返回的数量巨大的结果集中挑选结果,减轻了用户的负担。由于引文之间的题目相似度不能准确反映引文之间的相似度,现有的查询结果推荐方法不能很好的对引文做出推荐。本文基于引文自身的特点,提出了一种基于多因素的引文推荐策略。该策略综合了引文自身因素和用户因素进行论文推荐。首先,根据引文的引用关系,生成一个引文引用图。接着,根据同作者、共同引用等引文之间特殊的联系定义一系列规则,并基于这些规则给引用边赋权值,权值的大小表示引文之间联系的强弱。之后,应用聚类算法对联系紧密的引文进行聚类,并根据聚类结果,找出用户需要的相关引文,生成初始的引文推荐集合。最后,找出当前用户的相似用户,根据它们的行为对之前生成的推荐集合进行调整,生成最终的引文推荐集合。本文主要研究以下几个问题。一是将用户协同过滤策略和基于项目的推荐策略结合起来,提出一个引文推荐模型。在初期用户评分稀疏的情况下,利用项目之间的相似度进行推荐。在系统运行一段时间之后,根据用户的评价对之前计算的相似度进行调整,使结果更准确。二是在计算项目相似度的时候,根据引文自身的属性计算(引用关系、作者、发表时间等),而不是传统的语义相似度。这样,可以避免抽取和语义分析的不准确。三是改进了用户-项目评分矩阵的生成方法,解决了传统用户协同过滤策略存在的一些问题。文中通过大量实验对比,验证了我们提出的基于多因素的引文推荐方法在性能上要优于现有的推荐方法,使得在WebCitation系统中,对目标引文做出的引文推荐集合符合用户的需要,减少了用户的操作负担。