基于链接分析的网页排序及相关Link Spam算法的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:shuiyuwqiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的高速发展,网络中的信息量越来越大,而且质量参差不齐。如何在海量信息中找到满足用户需求的高质量搜索结果变得越来越重要,技术上也更加困难和具有挑战性。目前,搜索引擎成为网页点击量的重要来源,随着spam网页等恶意作弊情况的增加,如何提供高相关性的搜索结果,过滤spam等作弊页面,成为搜索引擎的一个巨大挑战。本文工作内容的宗旨在于提高网页排序结果,网页排序结果的质量一方面决定于排名靠前的页面与搜索主题之间的相关性,另一方面受能否有效的过滤spam页面的影响。文中提了基于网页质量的PageRank算法改进、基于链接结构分析的垃圾网页过滤算法,分别从这两方面实现了对PageRank算法的优化。PageRank和HITS是两个最重要的基于链接结构的排序算法,并在商业搜索引擎中使用。然而,在PageRank算法中,每个网页的PR值被平均地分配到它所指向的所有网页,网页之间的质量差异被完全忽略。这样的算法很容易被当前的Web Spam等作弊行为所攻击。基于这样的认识,提出了一个关于PageRank算法的改进,称为基于网页质量的PageRank算法(Page Quality Based PageRank简称为QPR算法)。QPR算法根据迭代过程中网页的PR值和链接结构,动态地评估每个网页的相对质量,并根据网页的相对质量对网页的PR值进行更加合理的分配。通过大量实验验证了QPR算法有利于提高网页排序结果的相关性,但在spam网页过滤方面,QPQ算法却没有较强的针对性。目前大量研究工作显示spam页面之间存在较为明显的勾结的现象,分析spam页面链接结构特性成为过滤spam页面的重要方法。在此基础上,我们认为spam网页的链接结构之间存在较高的相似性,基于这一假设,提出了一种基于链接分析的Web Spam过滤方法。首先对所有的页面按照链接结构相似性进行聚类,之后按照每个页面在类中的分布情况,对链接进行降权,从而达到过滤spam页面的目的。我们在多个数据集上进行了大量实验,验证了QPR算法对排序结果相关性的提高,以及基于链接结构相似性分析的spam网页过滤方法对spam页面的过滤效果。
其他文献
本论文讨论两个问题:第一,分析NZ上基于Chebyshev多项式的公钥密码算法的安全性;第二,分析猫映射的周期分布,该问题直接来源于第一个问题的深入研究。  对于第一个问题,本论文通
Al-Riyami和Perterson在2003年的亚洲密码学会议上,提出了无证书公钥密码体制,该体制既无传统的基于证书的公钥密码体制复杂的证书管理问题又无基于身份的公钥密码体制的密钥
随着互联网的迅猛发展,各种网络应用平台逐步渗入到人们的学习和生活中。符号网络作为复杂网络系统的一个分支,其生成的数据规模越来越大,如何快速而有效地从中挖掘出有价值
解决耳聋患者听觉问题已是当今世界的一大难题,传统的方法有佩戴助听器和植入电子耳蜗,但二者都有明显的缺陷:前者将声音信号简单的放大,只适用于轻度耳聋患者,依赖于残余听
中医辨证是中医理论的重要一环,是中医诊断疾病、对症下药的最主要的参考依据。然而,传统的中医诊疗过于依赖于医生直观的定性观察,而且辨证过程也以“体验”和“感悟”的人
随着社会经济的飞速发展,公共场所的安全问题面临日益严峻的考验,如何对这些公共场所进行有效地控制和管理,是非常重要的问题。智能监控的出现在一定程度上很好的解决了这一
医学图像的三维重建是采用面绘制或体绘制的成像算法对CT、MRI等图像数据进行处理,从而为医生提供具有真实感的三维立体影像。它能将组织器官内部的层次关系表现出来,呈现出
随着软件技术的快速发展和软件产品的广泛应用,软件测试作为保障软件质量的重要手段越来越受到研究人员的关注。近年来面向对象软件开发技术的广泛应用,带来了信息技术革命的同
随着Web服务标准逐渐被广泛采纳与实现,高度异构的软件系统之间的互操作已经取得了前所未有的进步,面向服务的架构也因其在IT项目中的重要角色而获得广泛的认可,软件作为一种服
医学图像分割是虚拟器官研究工作的重要基础。在虚拟器官研究的工作中,医学图像分割属于前端工作,是医学图像处理进入到医学图像分析的关键步骤,影响着后期的形态建模和物理