论文部分内容阅读
随着科研技术水平的不断发展,期刊论文的数量急剧增长。面对大量的期刊论文,对于学术研究者来说,如何找到符合需求的论文就变的非常困难;其次对于期刊论文质量参差不齐的情况,如何找到高质量的论文对于用户来说也是至关重要的;再者如果能把优质的论文主动推荐给用户,这无疑可以节省用户查找资料的时间。所以针对这些问题,本文将实现期刊论文的搜索和推荐。本文采用全文检索技术Lucene以及协同过滤推荐算法实现期刊论文的检索和推荐,主要研究工作如下:为了提高用户检索的论文质量,本文提出了期刊论文的质量评价算法,本文研究了目前现有的论文质量评价算法,并在此基础上提出了更为公正客观的期刊论文质量评价算法。研究了 Lucene的相关度排序算法并对其进行两次优化,首先考虑到检索词项在一篇期刊论文中的位置的重要性,为此对Lucene相关度排序算法做了的一次优化,再次考虑到用户搜索到论文质量的重要性,在此基础上对相关度排序算法做了二次优化,实现了高质量期刊论文相关度排序算法。为实现期刊论文的推荐,本文充分研究了目前的推荐算法,实现了期刊论文的个性化推荐,分析比较了现有的中文分词器,选用了最适合的分词器。本文采用倒排索引技术提高建立索引的效率;使用HDFS分布式系统存储大量的期刊论文;采用PDF抽取技术将非纯文本格式的PDF期刊论文转换为纯文本格式。实验结果表明,本文有效的解决大量的期刊论文的存储和访问,二次优化的相关度排序算法提高了论文搜索的质量,准确性以及召回率。