基于排序算法的垃圾网页检测技术

被引量 : 0次 | 上传用户:nihaochaochao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究表明,80%的搜索引擎使用者查看返回结果不超过三页,因此在搜索引擎返回结果中,排名越高带来的利润越大,很多网页通过欺骗搜索引擎的手段获得较高的排名,这类网页被称为垃圾网页。垃圾网页在利益的驱使下采用作弊手段欺骗搜索引擎获得更高的排名,干扰了用户对信息的获取。垃圾网页损害搜索引擎的声誉,削弱了其用户对搜索引擎的信任,检测垃圾网页已是搜索引擎面临的重大的挑战之一。为了有效的检测出垃圾网页,分析了数据集中垃圾网页与正常的网页内容特征与链接特征分布,通过结合网页的内容特征与链接特征结合机器学习方法及其他排序算法对垃圾网页进行检测。具体工作如下:1. TrustRank算法是著名的基于链接信息的网页排序算法。传统的TrustRank算法基于链接特征的垃圾网页检测方法,这种方法不是对所有作弊网页都有效。譬如一组网页提供一些有用资源,吸引其他网站的链接,但这组网页包含了许多指向目标作弊页面的链接,这些链接可能是隐蔽的,目标作弊网页的TrustRank值就有可能很高。而且有的垃圾网页的拓扑结构和正常网页的拓扑结构相似,这时基于内容特征的垃圾网页检测方法就比较有效了。因此,我们在基于链接分析的TrustRank算法基础上对网页内容特征进行提取,并分析网页内容特征的分布,根据正常网页与垃圾网页内容特征分布的不同结合网页链接特征对Web spam进行检测。2.基于内容特征的垃圾网页检测方法只考虑了网页的文本内容特征,没有考虑网页的链接结构,很难适应不断发展的网页作弊技术,而基于链接结构的垃圾网页检测方法则忽略了网页的内容信息,如果只考虑网页的拓扑结构,很难检测出那些拓扑结构与正常网页十分相似的垃圾网页。我们在分析数据集网页特征分布的基础上,用各种分布函数拟合网页的内容特征分布和链接特征分布,由于正常网页的特征分布比较有规律,而垃圾网页的特征分布混乱,因此用分布函数拟合之后求差值,正常网页差值较小而垃圾网页差值较大。根据网页特征值与拟合函数的差值利用决策树检测垃圾网页。3.目前大多数研究把垃圾网页检测看作是分类问题,并且使用机器学习方法譬如SVM、决策树等对垃圾网页进行检测。我们把垃圾网页检测问题看作排序问题,结合网页的内容特征和链接特征建立排序模型对网页进行排序。排序模型的基本要求是能够保证正常网页排名靠前,垃圾网页排名靠后,从而使得用户使用搜索引擎时不会被垃圾网页干扰。我们结合网页的链接信息和网页的内容特征信息建立数学模型。首先,我们通过分析网页的内容特征分布,用分布函数拟合计算得到内容特征向量,用内容特征向量逼近网页的链接信息值求得权值向量,计算内容特征向量与权值向量的乘积作为网页值对网页排序。垃圾网页不仅影响了用户通过搜索引擎寻找有用的信息,而且严重浪费了搜索引擎的资源,搜索引擎在根据用户的请求索引网页时,需要处理大量的垃圾的网页,所以检测垃圾网页的相关研究有切实的意义。
其他文献
本文阐述了广东某通信办公大楼因地制宜综合集成绿色建筑和低能耗的技术体系,综合分析项目能耗,为同类办公楼的绿色建筑设计、建设和运营提供参考。
目的:研究大鼠口服克感利咽浓浸膏后挥发性成分的吸收。方法:利用气相色谱-质谱联用(GC-MS)法定性分析克感利咽浸膏中和大鼠口服克感利咽浸膏后血清样品中的挥发性成分。结果
本文对汉语普通话轻重音性质的研究进行综合性的回顾和评价。分析表明 ,通过普通话轻声的声学分析和合成实验 ,时长缩短是轻声非常重要的因素。对于不带轻声字组的正常重音的
工程测绘是工程建设的重要步骤。近年来,随着建筑行业的迅速发展受到更多关注。同时,对质量上的要求也越来越严格。本文重点阐述了在测绘工程中常出现的一些问题,并提出了一
随着汽车化水平的提高,它给我们带来方便的同时也带来了一系列的问题,特别是交通拥挤问题。解决交通拥挤问题的最有效的方式是发展智能交通系统(ITS),而交通参数采集是智能交
最近几十年来,我国的国民经济发展迅速,机械行业也跟着飞速发展起来,成为了世界的"制造中心"。而机械设计制造行业是我国机械行业的基础制造行业,具有十分悠久的发展历史。"
<正>阴囊湿疹属祖国医学"痒风"、"阴痒"、"绣球风"范畴。本病以局部阵发性瘙痒,皮损干燥肥厚为特征。病因多由肝胆湿热下注,或病久脾虚,肝肾不足,或冲任不调,或因湿热内蕴所
<正>1临床资料患者,男,54岁,因腰椎间盘突出,于2011年01月06日入院。17:10,给予注射用鹿瓜多肽(商品名为绵舒,黑龙江迪龙制药有限公司,批号20100811)32 mg加入0.9%氯化钠注射
油井液面高低直接反映着油井供液能力的大小,也是优化机采工作参数的重要依据,液面的准确与否直接影响到措施效果。在一般情况下油井的液面受泡沫段、死油环及气体密度的影响
目的针对2008-2010年湖南省哨点医院手足口病实验室检测结果及其基因特征进行分析,为湖南省手足口病的综合防治提供参考资料。方法收集湖南省哨点医院2008-2010年手足口病病