论文部分内容阅读
互联网的迅速发展,使得现有的搜索引擎面临着巨大的挑战,面对众多杂乱无章的信息,搜索引擎如何能够快速准确检索到用户需要的信息,在搜索引擎中就显得十分重要。因此,搜索引擎排序算法也就成为众多搜索引擎关注的关键问题之一。在现有搜索引擎排名算法中,基于网页链接结构的经典算法就是经常提到的PageRank算法和Hits算法,这些算法也是国内外众多学者和研究人员研究的主题,并取得了一定的成绩,形成了一些比较成熟的基于PageRank算法和Hits算法的综合改进算法。本文首先说明了国内外搜索引擎排名算法的研究背景、发展现状,然后分析了搜索引擎的工作原理和关键技术,以及搜索引擎的三级评测指标,为本文的原型系统测试和算法验证提供了一定的依据。然后,剖析了传统PageRank算法和已改进的PageRank算法,分析了它们存在的优、缺点,为我们进一步改进PageRank算法提供了可能性。本文的重点是通过分析传统PageRank算法和已有PageRank算法的改进算法,提出了结合分类技术、相似度和时间反馈因子的PageRank算法的综合改进算法,改进后的算法主要是从网页预处理、网页的链接结构和网页爬行周期等方面对PageRank算法进行改进,提出了一种基于PageRank算法的综合改进算法,并设计了原型系统,同时,对改进算法进行验证,将实验结果和传统算法进行比较,发现改进后的算法可以提高搜索引擎的查准率,改善系统的查全率。