论文部分内容阅读
随着网络的资源的海量增长,网络信息中存在大量的spam网页,也叫欺骗性网页。spam网页对于用户来说都是垃圾网页,毫无价值而言。spam网页主要欺骗搜索引擎以提高自己在搜索结果中的排名,网页中夹杂着大量欺骗性网页严重影响了搜索引擎的质量,也给用户增加了巨大的负担。如何消除spam已经成为搜索引擎中的一个巨大挑战,研究spam有一定的现实意义。
本文详细研究了Web spam检测技术。根据spam制作的方式不同将spam分为基于内容、基于链接和基于隐藏三种制作分类,并对这三种分类根据其特点进行了详细的讲解。基于内容的检测算法主要是Alexandros Ntoulas算法;基于链接的检测算法主要是TrustRank算法、HillTop算法和BadRank算法;基于隐藏的检测算法有一定的难度,目前还没有比较经典的算法。在本论文中对这些算法有一定的介绍,而对基于内容的Anti-spam检测算法做了深入研究。基于内容的Alexandros Ntoulas检测算法主要利用网页内容的多种特征进行spam检测,诸如URL长度、标题的单词数、单词的平均长度、网页压缩率等等,但是在对特征进行分析的时候,该算法有时候具有一定的片面性,有其不足之处,为此本文在此算法的基础上加入了Meta标签、方差和Zipf定律,从这三个方面在一定的程度上对Alexandros Ntoulas算法进行有效的改进。本文详细分析了Meta标签、方差和Zipf定律。Meta标签的重要性是html语言标记中仅次于Title标签,spam的制作者在Meta标签中充斥大量关键字欺骗搜索引擎。方差主要从网页内容的平衡角度考虑,而Zipf定律是一般的自然规律,本文就将它们引入Alexandros Ntoulas算法中,作为spam检测的三个启发式,并利用C4.5算法将所有的spam检测的启发式组合起来建立一个决策树,然后利用十折交叉验证检测算法的有效性,进行相关实验,最后实验结果显示改进算法具有良好的效果。spam检测的最终目的是应用于搜索引擎中,所以在本文的第四章,将改进后的算法应用于一个简单的搜索引擎中,最后表明消除spam能够提高搜索引擎的质量,也给用户带来极大的便利。