论文部分内容阅读
随着信息技术的发展,互联网成为人们获取信息的重要来源。搜索引擎作为互联网信息检索的入口,在信息获取的过程中扮演着举足轻重的角色。搜索引擎排名算法负责将最有价值的网页优先推荐给用户,它在提高检索服务质量方面起着重要作用。基于链接分析的排名算法(如PageRank)在今天的搜索引擎中取得了巨大的成功,这种排名思想可以应用到很多其他的信息检索系统中。然而搜索引擎排名算法目前面临着一个严重问题,那就是搜索引擎作弊。搜索引擎作弊是指通过不正当的手段,使某些网页在搜索结果中获得高于其实际价值的排名的欺骗行为。搜索引擎作弊不但会增加搜索引擎运行成本、降低搜索性能,而且严重影响用户体验。因此进行搜索引擎作弊检测、剔除互联网上的作弊内容,不论对搜索引擎还是对搜索用户都具有重要意义。本文工作主要包括两个方面:1.将链接分析思想应用到文献检索系统中,提出了一个基于PageRank的文献质量评价算法;2.提出了一个利用扩展策略和链接相似度检测搜索引擎作弊的方法。主要内容概括如下:1.首先对搜索引擎排名算法做了详细的总结分析。在深入研究了搜索引擎排名算法的相关理论和技术的基础上,我们提出了搜索引擎排名算法在文献检索系统中的一个应用:基于PageRank的科技文献质量评价算法。该算法将PageRank思想引入到引文分析中,并综合考虑科技文献发表机构、作者、被引次数、发表时间等因素,改进了传统的文献质量评价方法。实验证实,该算法的评价结果比传统方法更符合人们的期望。2.在对各类搜索引擎作弊技术及目前各种作弊检测技术作了研究综述的基础上,提出了一个基于扩展策略和链接相似度的链接作弊检测方法。我们的方法从一个较小的作弊网页种子集合开始,利用网页间的链接相似关系扩展种子集合,逐步发现更多的作弊网页。目前网页间的链接相似度直接沿用引文分析中的度量指标:Cocitation、Bibcoupling和Amsler。由于忽视了网页间链接关系与论文间引文关系的区别,用这些指标度量网页间链接相似度会出现问题。我们对这些指标进行了修正,提出了三种适用于Web网页的新链接相似度,并将这三种新链接相似度应用到基于扩展策略的链接作弊检测方法中。3.通过实验验证了提出的机遇扩展策略和链接相似度的作弊检测方法。我们在一个公开数据集WEBSPAM-UK2006上测试了我们的方法,对结果进行了比较分析,并与其他检测方法做了对比。首先比较了在基于扩展的方法中新提出的链接相似度与旧链接相似度的检测效果,我们发现新链接相似度的检测准确率更高,但检测结果数量相对较少。其次比较了三种新链接相似度的检测效果,结果显示三种新链接相似度的检测性能各有所长。最后我们将我们的检测方法与两种优秀的检测算法ATR和BRW做了对比,结果表明我们的方法在检测准确率和检测结果数量方面均优于ATR和BRW。