伪装型垃圾网页检测技术的研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:huohuonan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,互联网的发展突飞猛进,遍布日常生活中的各个角落,给人们的生活带来了巨大的便利。而如何在互联网的汪洋大海中获取用户想要的信息,搜索引擎无疑是一个方便可靠的工具。然而,一些人通过不正当手段提高其页面在搜索引擎中的排名以达到他们恶意或非法盈利的目的。学者们将这种类型的网页统称为垃圾网页。本文重点研究伪装型垃圾网页,这类网页隐蔽性强,采用多副本方式进行欺诈。本文将采用相似性度量和分类相结合的方法对这种类型的垃圾网页进行检测。本文综述了国内外学者目前对伪装型垃圾网页检测技术的研究,详细分析了伪装型垃圾网页形成原因和作弊方式。另外还综述了国内外学者对网页文本相似性度量技术的研究,详细介绍了计算文本相似度的各类方法,以便为实现伪装型垃圾网页检测提供理论基础。本文根据伪装网页欺诈方式以及网页文本相似性度量方法,提出一套基于相似性度量和分类相结合的伪装型垃圾网页检测方案。在相似性度量模块,重点利用基于LDA (Latent Dirichlet Allocation)主题模型的方法设计并实现,然后在此基础上利用随机森林分类器对伪装型垃圾网页分类进行检测,获得了有效的结果。本文构建了中文伪装网页样本集,通过前面提出的伪装型垃圾网页检测方法在实验数据样本集上做了几组对比实验,并且对实验结果进行了详尽的分析。
其他文献
语义Web服务(Semantic Web Services,SWS)是用语义Web标记语言来描述服务的技术,它使Web服务成为计算机可以理解的实体,从而支持服务的自动发现、执行和组合等。本文研究的是基于
社会网络隐私保护已经成为了一个新的研究热点。为了防止用户的隐私信息泄露,在将社会网络数据发布前需实施有效的隐私保护策略。社会网络隐私保护的研究中,传统的方式是把社会
制订和实施海洋功能区划是我国科学利用海洋资源,实现海洋经济可持续发展的重要举措。因此统筹考虑宏观调控政策和沿海地区发展战略,科学评价已有海洋功能区的开发利用现状,对于
技术人员在设计界面时,更多考虑的是计算机如何编码,存储,和处理信息,是为计算机本身的方便而设计的,并不符合人们既有的行为习惯。用户要适应计算机,计算机并没有与人们的生活环境
随着网络信息技术的蓬勃发展,网络生活已成为人们生活中的一部分,计算机自动识别语义能让计算机给人提供更好的服务,因此,计算机自动识别语义已经成为广大学者关注的焦点。但
随着多媒体技术和信息技术的迅速发展,视频技术作为多媒体技术中的重要元素获得了更多关注。为了使视频传输更快,提出了视频压缩技术。H.264作为当今应用最广泛的视频压缩编码
无线传感器网络(Wireless Sensor Networks, WSNs)作为物联网底层支撑技术受到全世界关注。不同于其他无线网络,无线传感器网络中节点通常由电池供电,能量受限,所以提高无线传感
当前技术协会组织网站停留于Web1.0网站单向信息发布的模式,缺乏成员间交互渠道,不能满足协会组织内各种角色成员进行充分而又广泛的思想和信息交流探讨的需求。为此,本文在
目前,人体活动识别技术大都局限于仅使用加速度对人体运动进行识别,融合异构传感器数据进行复杂活动识别的研究很少,现有的一些融合加速度和心率进行活动识别的工作,也仅仅是在特
重庆地处中国的西部,是一个多山多河流的城市,桥在这座城市发展中起到了举足轻重的作用,桥梁的健康直接影响到城市的经济发展及人们的日常生活,所以桥梁的健康监测成为了城市建设