Web Spam检测技术研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:raun395924241
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索质量是搜索服务的核心,决定了搜索引擎的质量。搜索引擎不但要搜索出相关性较高且符合用户需求的目标页面,同时也要针对低质量,甚至是人为“高质量”的作弊页面进行甄别和处理。本文主要针对页面作弊分类检测中基于内容的作弊分类检测技术方法进行了研究,并将文本分类中朴素文本分类和KNN分类方法应用于页面的二值分类检测上。论文将作弊页面的甄别看作是正常和作弊的二值分类过程。首先论文将页面的四个组成元素(标题、关键字、描述和正文)之间的相似度作为网页的文本特征并构建向量空间,然后应用朴素文本分类方法,在相似度的计算和阈值的确定上分别采用余弦值及欧式距离和迭代取值的方式,来达到最好的分类效果,实验结果说明采用类朴素文本分类方法正负样本无法同时取得较理想的召回率。为解决上述问题,论文分析了样本中部分特征之间的2维散列图,发现正负样本的局部交错分布导致无法根据某一个阈值来明确页面的类别归属,为此采用基于有监督的KNN分类方法,并增加了页面的特征维度,而且对页面特征进行了标准化,以降低特征度量单位差异化导致的分类偏差问题,最终通过实验结果表明该分类方法相比于类朴素文本分类方法在正负样本召回率上能够同时取得更满意的效果。应用上述分类方法,论文构建了一个新闻类的垂直搜索作弊分类检测原型系统,并针对系统的各个模块,如页面爬取模块、页面特征抽取模块、二值分类模块等的设计和实现进行了简略性的叙述。并对系统在使用分类检测前后,spam页面比例差异性情况,以及不同的页面元素,如标题、关键字等激励权重大小情况下的spam比例,进行了相关测试和分析。结果表明使用分类检测搜索质量明显好于不使用分类检测。论文最后对研究工作做了简要性的总结,并对文中未充分考虑的问题进行了讨论和展望。
其他文献
计算机技术、多媒体技术以及INTERNET技术的飞速发展产生大量的图像信息,因此如何有效、快速地从大规模的图像数据库中检索出需要的图像是一个目前急需解决的问题。基于内容的
基于目前大多数检索系统检索效率并是很高,以及对语义检索系统并没有进行充分研究的现状,本文提出一种全新的语义检索模型,其中的核心是语义相关度排名算法,它利用文本的主题词集
现有的协议分析器大多采用单一点结构,在网络中的一台主机上搜集并分析数据,不可避免地出现监控范围过小的问题,本文在深入理解移动Agent工作机制的基础上,利用Agent的移动性
企业信息化的基础平台将是Internet,XML已经成为Internet环境下数据表达的事实标准,而目前企业大量数据仍存在于占主导地位的关系数据库(简称RDB)中,如何在RDB与XML之间架起数据
XML语言已经成为互联网上表示和交换数据的标准,使得XML文档大量出现,因此如何查询XML文档变得更加重要。由于关系数据库有着技术成熟、应用广泛、数据管理能力强、数据安全程
随着计算机互联网的发展和广泛应用,网络安全特别是网络入侵问题变得越来越严重。因此,开展网络安全特别是入侵攻击与防范技术的研究,开发高效实用的入侵检测系统,对计算机网络的
目前我国各移动通信运营商大都拥有一个规模宏大的网络,如核心话务网、接入网、SDH和PDH传输网、分组交换网、智能网等多种电信网络。随着网络规模的不断扩大,网络设备的种类
本文针对我国农业信息多、广、散的特点以及农业信息网络的发展现状和存在的问题,研究并提出了使用Web服务技术集成农业信息。设计开发了基于Web服务的农业信息集成系统。在研
随着信息技术在全球范围的蓬勃发展,信息技术已经是无孔不入。各种数字产品日益渗透到社会生活的各个领域,数字家庭技术不断成熟。芯片和外围硬件的大幅度降价以及软件技术的迅
随着计算机图形学的飞速发展,三维计算机图形学已经渗透到计算机应用的方方面面。人们对计算机造型与绘制技术的要求不断提高,计算机模拟场景的规模越来越大,景物的细节也越来越