论文部分内容阅读
随着网络的高速发展,网络中的信息量越来越大,而且质量参差不齐。如何在海量信息中找到满足用户需求的高质量搜索结果变得越来越重要,技术上也更加困难和具有挑战性。目前,搜索引擎成为网页点击量的重要来源,随着spam网页等恶意作弊情况的增加,如何提供高相关性的搜索结果,过滤spam等作弊页面,成为搜索引擎的一个巨大挑战。本文工作内容的宗旨在于提高网页排序结果,网页排序结果的质量一方面决定于排名靠前的页面与搜索主题之间的相关性,另一方面受能否有效的过滤spam页面的影响。文中提了基于网页质量的PageRank算法改进、基于链接结构分析的垃圾网页过滤算法,分别从这两方面实现了对PageRank算法的优化。PageRank和HITS是两个最重要的基于链接结构的排序算法,并在商业搜索引擎中使用。然而,在PageRank算法中,每个网页的PR值被平均地分配到它所指向的所有网页,网页之间的质量差异被完全忽略。这样的算法很容易被当前的Web Spam等作弊行为所攻击。基于这样的认识,提出了一个关于PageRank算法的改进,称为基于网页质量的PageRank算法(Page Quality Based PageRank简称为QPR算法)。QPR算法根据迭代过程中网页的PR值和链接结构,动态地评估每个网页的相对质量,并根据网页的相对质量对网页的PR值进行更加合理的分配。通过大量实验验证了QPR算法有利于提高网页排序结果的相关性,但在spam网页过滤方面,QPQ算法却没有较强的针对性。目前大量研究工作显示spam页面之间存在较为明显的勾结的现象,分析spam页面链接结构特性成为过滤spam页面的重要方法。在此基础上,我们认为spam网页的链接结构之间存在较高的相似性,基于这一假设,提出了一种基于链接分析的Web Spam过滤方法。首先对所有的页面按照链接结构相似性进行聚类,之后按照每个页面在类中的分布情况,对链接进行降权,从而达到过滤spam页面的目的。我们在多个数据集上进行了大量实验,验证了QPR算法对排序结果相关性的提高,以及基于链接结构相似性分析的spam网页过滤方法对spam页面的过滤效果。