Web Spam检测技术研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：raun395924241

【摘要】

：

搜索质量是搜索服务的核心，决定了搜索引擎的质量。搜索引擎不但要搜索出相关性较高且符合用户需求的目标页面，同时也要针对低质量，甚至是人为“高质量”的作弊页面进行甄别和处

【作者】

：

吕越

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2014年01期

【关键词】

：

作弊检测 Web Spam 文本相似度 KNN Lucene

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

搜索质量是搜索服务的核心，决定了搜索引擎的质量。搜索引擎不但要搜索出相关性较高且符合用户需求的目标页面，同时也要针对低质量，甚至是人为“高质量”的作弊页面进行甄别和处理。本文主要针对页面作弊分类检测中基于内容的作弊分类检测技术方法进行了研究，并将文本分类中朴素文本分类和KNN分类方法应用于页面的二值分类检测上。论文将作弊页面的甄别看作是正常和作弊的二值分类过程。首先论文将页面的四个组成元素（标题、关键字、描述和正文）之间的相似度作为网页的文本特征并构建向量空间，然后应用朴素文本分类方法，在相似度的计算和阈值的确定上分别采用余弦值及欧式距离和迭代取值的方式，来达到最好的分类效果，实验结果说明采用类朴素文本分类方法正负样本无法同时取得较理想的召回率。为解决上述问题，论文分析了样本中部分特征之间的2维散列图，发现正负样本的局部交错分布导致无法根据某一个阈值来明确页面的类别归属，为此采用基于有监督的KNN分类方法，并增加了页面的特征维度，而且对页面特征进行了标准化，以降低特征度量单位差异化导致的分类偏差问题，最终通过实验结果表明该分类方法相比于类朴素文本分类方法在正负样本召回率上能够同时取得更满意的效果。应用上述分类方法，论文构建了一个新闻类的垂直搜索作弊分类检测原型系统，并针对系统的各个模块，如页面爬取模块、页面特征抽取模块、二值分类模块等的设计和实现进行了简略性的叙述。并对系统在使用分类检测前后，spam页面比例差异性情况，以及不同的页面元素，如标题、关键字等激励权重大小情况下的spam比例，进行了相关测试和分析。结果表明使用分类检测搜索质量明显好于不使用分类检测。论文最后对研究工作做了简要性的总结，并对文中未充分考虑的问题进行了讨论和展望。

其他文献

支持语义的图像检索系统研究与实现

计算机技术、多媒体技术以及INTERNET技术的飞速发展产生大量的图像信息，因此如何有效、快速地从大规模的图像数据库中检索出需要的图像是一个目前急需解决的问题。基于内容的

学位

基于内容的图像检索主颜色语义词典语义图像检索相关反馈

基于词汇语义树的语义检索排名算法

基于目前大多数检索系统检索效率并是很高，以及对语义检索系统并没有进行充分研究的现状，本文提出一种全新的语义检索模型，其中的核心是语义相关度排名算法，它利用文本的主题词集

学位

信息检索语义检索语义树排名算法语义相关度WordNet搜索引擎信息查询

基于移动Agent的协议分析系统的研究与实现

现有的协议分析器大多采用单一点结构,在网络中的一台主机上搜集并分析数据,不可避免地出现监控范围过小的问题,本文在深入理解移动Agent工作机制的基础上,利用Agent的移动性

学位

移动Agent协议分析分布式Aglet平台监测

基于XML的数据交换构件的研究与设计

企业信息化的基础平台将是Internet，XML已经成为Internet环境下数据表达的事实标准，而目前企业大量数据仍存在于占主导地位的关系数据库(简称RDB)中，如何在RDB与XML之间架起数据

学位

数据交换数据转换消息构件扩展的Java消息服务XML

基于XML数据库的数据查询优化的研究

XML语言已经成为互联网上表示和交换数据的标准，使得XML文档大量出现，因此如何查询XML文档变得更加重要。由于关系数据库有着技术成熟、应用广泛、数据管理能力强、数据安全程

学位

XML数据库查询查询优化查询重写

基于人工免疫的入侵检测系统模型研究

随着计算机互联网的发展和广泛应用，网络安全特别是网络入侵问题变得越来越严重。因此，开展网络安全特别是入侵攻击与防范技术的研究，开发高效实用的入侵检测系统，对计算机网络的

学位

入侵检测生物免疫系统人工免疫原理否定选择克隆选择

CORBA实现移动综合网管北向接口

目前我国各移动通信运营商大都拥有一个规模宏大的网络,如核心话务网、接入网、SDH和PDH传输网、分组交换网、智能网等多种电信网络。随着网络规模的不断扩大,网络设备的种类

学位

CORBA综合网管接口

基于Web服务的农业信息集成系统的设计与开发

本文针对我国农业信息多、广、散的特点以及农业信息网络的发展现状和存在的问题，研究并提出了使用Web服务技术集成农业信息。设计开发了基于Web服务的农业信息集成系统。在研

学位

农业信息集成Web服务消息传输格式传输协议服务接口

数字家庭控制中心体系结构研究及设备层设计

随着信息技术在全球范围的蓬勃发展，信息技术已经是无孔不入。各种数字产品日益渗透到社会生活的各个领域，数字家庭技术不断成熟。芯片和外围硬件的大幅度降价以及软件技术的迅

学位

数字家庭控制中心家庭服务器体系结构即插即控协议栈

基于点的造型与绘制技术的研究

随着计算机图形学的飞速发展，三维计算机图形学已经渗透到计算机应用的方方面面。人们对计算机造型与绘制技术的要求不断提高，计算机模拟场景的规模越来越大，景物的细节也越来越

学位

基于点的绘制基于点的造型Kohonen神经网络B样条曲面径向基函数神经网络非均匀有理B样条

Web Spam检测技术研究与实现

其他学术论文