基于内容的spam检测算法研究及改进

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：cdtst

【摘要】

：

随着网络的资源的海量增长，网络信息中存在大量的spam网页，也叫欺骗性网页。spam网页对于用户来说都是垃圾网页，毫无价值而言。spam网页主要欺骗搜索引擎以提高自己在搜索结果中

【作者】

：

张顺

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2012年期

【关键词】

：

Web spam检测技术网络搜索引擎 Meta标签 BadRank算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络的资源的海量增长，网络信息中存在大量的spam网页，也叫欺骗性网页。spam网页对于用户来说都是垃圾网页，毫无价值而言。spam网页主要欺骗搜索引擎以提高自己在搜索结果中的排名，网页中夹杂着大量欺骗性网页严重影响了搜索引擎的质量，也给用户增加了巨大的负担。如何消除spam已经成为搜索引擎中的一个巨大挑战，研究spam有一定的现实意义。　　本文详细研究了Web spam检测技术。根据spam制作的方式不同将spam分为基于内容、基于链接和基于隐藏三种制作分类，并对这三种分类根据其特点进行了详细的讲解。基于内容的检测算法主要是Alexandros Ntoulas算法；基于链接的检测算法主要是TrustRank算法、HillTop算法和BadRank算法；基于隐藏的检测算法有一定的难度，目前还没有比较经典的算法。在本论文中对这些算法有一定的介绍，而对基于内容的Anti-spam检测算法做了深入研究。基于内容的Alexandros Ntoulas检测算法主要利用网页内容的多种特征进行spam检测，诸如URL长度、标题的单词数、单词的平均长度、网页压缩率等等，但是在对特征进行分析的时候，该算法有时候具有一定的片面性，有其不足之处，为此本文在此算法的基础上加入了Meta标签、方差和Zipf定律，从这三个方面在一定的程度上对Alexandros Ntoulas算法进行有效的改进。本文详细分析了Meta标签、方差和Zipf定律。Meta标签的重要性是html语言标记中仅次于Title标签，spam的制作者在Meta标签中充斥大量关键字欺骗搜索引擎。方差主要从网页内容的平衡角度考虑，而Zipf定律是一般的自然规律，本文就将它们引入Alexandros Ntoulas算法中，作为spam检测的三个启发式，并利用C4.5算法将所有的spam检测的启发式组合起来建立一个决策树，然后利用十折交叉验证检测算法的有效性，进行相关实验，最后实验结果显示改进算法具有良好的效果。spam检测的最终目的是应用于搜索引擎中，所以在本文的第四章，将改进后的算法应用于一个简单的搜索引擎中，最后表明消除spam能够提高搜索引擎的质量，也给用户带来极大的便利。

其他文献

电力红外热像拼接技术研究与应用

红外热成像技术是利用自然景物的热辐射得到成像数据,形成视觉图像,可以在夜间甚至全黑的环境中工作,而且由于红外辐射具有穿透烟雾的能力,使得红外热成像技术具有很长好的穿

学位

红外热像图像拼接Harris角点Canny算子

基于PPTP客户端的防火墙技术研究

VPN是从专用网络发展而来的,它利用公共网络建立私密传输通道,提供安全地端到端的数据通信。其中PPTP是第二层隧道协议,并且已经集成到Windows操作系统中,具有安全性高、成本

学位

VPNPPTPWindows拦截技术TDIDDK过滤规则IRP

基因调控网络构建算法研究

随着生物基因相关技术的发展,基因组测序的完成预示着人类步入了后基因组时代,生物基因的研究方向也从基因序列研究转向了结构和功能的研究。深入挖掘其中的信息,为生命科学

学位

基因调控网络互信息贝叶斯网络K2算法最大信息系数时序互信息条件相对平均熵

智能网络电视嵌入式软件平台的研究与实践

随着互联网、通信以及广播电视等技术在国内的快速发展,智能网络电视作为三网融合的产物,已经显示出了蓬勃的发展前景,成为业界关注的热点。智能网络电视的实现需要服务端软

学位

智能网络电视三网融合嵌入式软件用户需求widget引擎人机界面

基于GPU的并行计算研究及在三维重建中的应用

随着信息技术的迅猛发展以及计算机性能的逐步提高，人们对于计算机的要求也越来越高，处理器也朝着专用化和通用化两个方向发展。在科学计算等领域，随着研究内容的扩展和算法复杂

学位

GPU并行计算CUDA编程三维重建LOOP细化

中文网页查重方法研究

当今中国，随着互联网的普及和网络终端的高速发展，网络已经深入到了人们生活的方方面面。面对海量的网络信息，搜索引擎的出现极大的方便了普通用户的操作，但大量的重复或近似网页

学位

中文分词词性标注隐马尔可夫模型序列比对网页查重

基于信任的Web服务跨域安全交互机制研究

随着互联网技术的不断发展,Web服务得到越来越多的应用,基于Web服务的各类软件也被广泛的应用在企业及各类政府机构中。而Web服务其松散耦合、语言及平台无关的特性使得Web服

学位

Web服务安全PKI数字证书XML加密XML签名WS-Security

智能视频监控中几种异常行为检测研究

随着视频内容信息的不断充实以及视频应用的不断深入,基于视频序列的应用研究已经成为当今多媒体的主流方向。因此,对视频图像序列中运动前景的提取跟踪、分类和行为识别已经

学位

运动目标检测徘徊行为离散曲率熵离群点异常检测

基于通用CPU的GPRS核心网的设计与实现

近年来,各专业领域用户对于行业集群通信的需求日益增多,集群通信方便、快捷和信道资源共享等特点使其迅速发展。数字集群通信具备兼容性、开放性、保密性强、频谱利用率高等

学位

专网通信信令流程会话管理网络单元

多视角生成模型的可解释性聚类研究

传统的聚类算法仅从单一视角对数据进行分析,并且由于聚类分析缺乏带有语义的类标签,因此得到的聚类划分不具有可解释性。聚类划分的可解释性即聚类划分由决策规则推理得到,

学位

贝叶斯案例模型(BCM)贝叶斯程序学习(BPL)可解释性多视角聚类

基于内容的spam检测算法研究及改进

其他学术论文