基于内容的spam检测算法研究及改进

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:cdtst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的资源的海量增长,网络信息中存在大量的spam网页,也叫欺骗性网页。spam网页对于用户来说都是垃圾网页,毫无价值而言。spam网页主要欺骗搜索引擎以提高自己在搜索结果中的排名,网页中夹杂着大量欺骗性网页严重影响了搜索引擎的质量,也给用户增加了巨大的负担。如何消除spam已经成为搜索引擎中的一个巨大挑战,研究spam有一定的现实意义。   本文详细研究了Web spam检测技术。根据spam制作的方式不同将spam分为基于内容、基于链接和基于隐藏三种制作分类,并对这三种分类根据其特点进行了详细的讲解。基于内容的检测算法主要是Alexandros Ntoulas算法;基于链接的检测算法主要是TrustRank算法、HillTop算法和BadRank算法;基于隐藏的检测算法有一定的难度,目前还没有比较经典的算法。在本论文中对这些算法有一定的介绍,而对基于内容的Anti-spam检测算法做了深入研究。基于内容的Alexandros Ntoulas检测算法主要利用网页内容的多种特征进行spam检测,诸如URL长度、标题的单词数、单词的平均长度、网页压缩率等等,但是在对特征进行分析的时候,该算法有时候具有一定的片面性,有其不足之处,为此本文在此算法的基础上加入了Meta标签、方差和Zipf定律,从这三个方面在一定的程度上对Alexandros Ntoulas算法进行有效的改进。本文详细分析了Meta标签、方差和Zipf定律。Meta标签的重要性是html语言标记中仅次于Title标签,spam的制作者在Meta标签中充斥大量关键字欺骗搜索引擎。方差主要从网页内容的平衡角度考虑,而Zipf定律是一般的自然规律,本文就将它们引入Alexandros Ntoulas算法中,作为spam检测的三个启发式,并利用C4.5算法将所有的spam检测的启发式组合起来建立一个决策树,然后利用十折交叉验证检测算法的有效性,进行相关实验,最后实验结果显示改进算法具有良好的效果。spam检测的最终目的是应用于搜索引擎中,所以在本文的第四章,将改进后的算法应用于一个简单的搜索引擎中,最后表明消除spam能够提高搜索引擎的质量,也给用户带来极大的便利。
其他文献
红外热成像技术是利用自然景物的热辐射得到成像数据,形成视觉图像,可以在夜间甚至全黑的环境中工作,而且由于红外辐射具有穿透烟雾的能力,使得红外热成像技术具有很长好的穿
VPN是从专用网络发展而来的,它利用公共网络建立私密传输通道,提供安全地端到端的数据通信。其中PPTP是第二层隧道协议,并且已经集成到Windows操作系统中,具有安全性高、成本
随着生物基因相关技术的发展,基因组测序的完成预示着人类步入了后基因组时代,生物基因的研究方向也从基因序列研究转向了结构和功能的研究。深入挖掘其中的信息,为生命科学
随着互联网、通信以及广播电视等技术在国内的快速发展,智能网络电视作为三网融合的产物,已经显示出了蓬勃的发展前景,成为业界关注的热点。智能网络电视的实现需要服务端软
随着信息技术的迅猛发展以及计算机性能的逐步提高,人们对于计算机的要求也越来越高,处理器也朝着专用化和通用化两个方向发展。在科学计算等领域,随着研究内容的扩展和算法复杂
当今中国,随着互联网的普及和网络终端的高速发展,网络已经深入到了人们生活的方方面面。面对海量的网络信息,搜索引擎的出现极大的方便了普通用户的操作,但大量的重复或近似网页
随着互联网技术的不断发展,Web服务得到越来越多的应用,基于Web服务的各类软件也被广泛的应用在企业及各类政府机构中。而Web服务其松散耦合、语言及平台无关的特性使得Web服
随着视频内容信息的不断充实以及视频应用的不断深入,基于视频序列的应用研究已经成为当今多媒体的主流方向。因此,对视频图像序列中运动前景的提取跟踪、分类和行为识别已经
近年来,各专业领域用户对于行业集群通信的需求日益增多,集群通信方便、快捷和信道资源共享等特点使其迅速发展。数字集群通信具备兼容性、开放性、保密性强、频谱利用率高等
传统的聚类算法仅从单一视角对数据进行分析,并且由于聚类分析缺乏带有语义的类标签,因此得到的聚类划分不具有可解释性。聚类划分的可解释性即聚类划分由决策规则推理得到,