论文部分内容阅读
研究表明,80%的搜索引擎使用者查看返回结果不超过三页,因此在搜索引擎返回结果中,排名越高带来的利润越大,很多网页通过欺骗搜索引擎的手段获得较高的排名,这类网页被称为垃圾网页。垃圾网页在利益的驱使下采用作弊手段欺骗搜索引擎获得更高的排名,干扰了用户对信息的获取。垃圾网页损害搜索引擎的声誉,削弱了其用户对搜索引擎的信任,检测垃圾网页已是搜索引擎面临的重大的挑战之一。为了有效的检测出垃圾网页,分析了数据集中垃圾网页与正常的网页内容特征与链接特征分布,通过结合网页的内容特征与链接特征结合机器学习方法及其他排序算法对垃圾网页进行检测。具体工作如下:1. TrustRank算法是著名的基于链接信息的网页排序算法。传统的TrustRank算法基于链接特征的垃圾网页检测方法,这种方法不是对所有作弊网页都有效。譬如一组网页提供一些有用资源,吸引其他网站的链接,但这组网页包含了许多指向目标作弊页面的链接,这些链接可能是隐蔽的,目标作弊网页的TrustRank值就有可能很高。而且有的垃圾网页的拓扑结构和正常网页的拓扑结构相似,这时基于内容特征的垃圾网页检测方法就比较有效了。因此,我们在基于链接分析的TrustRank算法基础上对网页内容特征进行提取,并分析网页内容特征的分布,根据正常网页与垃圾网页内容特征分布的不同结合网页链接特征对Web spam进行检测。2.基于内容特征的垃圾网页检测方法只考虑了网页的文本内容特征,没有考虑网页的链接结构,很难适应不断发展的网页作弊技术,而基于链接结构的垃圾网页检测方法则忽略了网页的内容信息,如果只考虑网页的拓扑结构,很难检测出那些拓扑结构与正常网页十分相似的垃圾网页。我们在分析数据集网页特征分布的基础上,用各种分布函数拟合网页的内容特征分布和链接特征分布,由于正常网页的特征分布比较有规律,而垃圾网页的特征分布混乱,因此用分布函数拟合之后求差值,正常网页差值较小而垃圾网页差值较大。根据网页特征值与拟合函数的差值利用决策树检测垃圾网页。3.目前大多数研究把垃圾网页检测看作是分类问题,并且使用机器学习方法譬如SVM、决策树等对垃圾网页进行检测。我们把垃圾网页检测问题看作排序问题,结合网页的内容特征和链接特征建立排序模型对网页进行排序。排序模型的基本要求是能够保证正常网页排名靠前,垃圾网页排名靠后,从而使得用户使用搜索引擎时不会被垃圾网页干扰。我们结合网页的链接信息和网页的内容特征信息建立数学模型。首先,我们通过分析网页的内容特征分布,用分布函数拟合计算得到内容特征向量,用内容特征向量逼近网页的链接信息值求得权值向量,计算内容特征向量与权值向量的乘积作为网页值对网页排序。垃圾网页不仅影响了用户通过搜索引擎寻找有用的信息,而且严重浪费了搜索引擎的资源,搜索引擎在根据用户的请求索引网页时,需要处理大量的垃圾的网页,所以检测垃圾网页的相关研究有切实的意义。