基于链接权重的垃圾网页检测算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ksh0323
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的发展,人们与互联网的联系日益密切,与此同时,垃圾网页层出不穷,欺骗搜索引擎,影响用户的上网体验,成为影响互联网环境的一大因素。介绍了垃圾网页的概念,探究了垃圾网页常用的作弊手段与检测方法,垃圾网页常通过内容作弊与链接作弊以提高自身在搜索引擎中的重要性,现有算法可分为基于内容的检测算法与基于链接的检测算法以及其他。对于基于链接的垃圾网页检测算法,提出了一种改进算法。首先分析了现有算法的一些不足,网页在传播评分时以出度或入度平均分配分数,未有效处理垃圾网页通过各种方法指向高评分网页或被高评分网页指向的情况。针对这些不足,为每个链接赋予了一定权重,使得网页在传播分数时与链接权重相关,权重越大的链接所能传播的分数越高。出链作弊是指垃圾网页通过指向大量高评分网页以提升分数,但这一行为会得到区分识别。入链作弊是指垃圾网页通过将高评分网页指向自身,以获得来自高评分网页的分数,提出的算法使得高评分网页链接到低评分网页时也能受低评分网页影响导致自身评分下降。最后证明了所提出算法的收敛性。基于WEBSPAM-UK2006与WEBSPAM-UK2007数据集的实验,在不同实验指标下对比了PageRank,TrustRank以及Trust-Distrust Rank算法,结果表明提出的垃圾网页检测算法能有效地降低垃圾网页在全部网页中的排名,提高垃圾网页的检测效果。
其他文献
我国自上个世纪90年代开展高校内部经济责任审计工作以来,大部分高校都初步建立了内部经济责任审计制度。但目前高校内部经济责任审计存在四个主要问题:经济责任审计机构的独
随着社会的高速发展,当前人们在日常生活中对于法律的公平性以及公正性提出了新的要求。而在人们不断运用法律的过程中,警察职业的高度危险性也逐渐被社会以及越来越多的人们
“文化民主化”的定义,按法国作家安德烈·马尔罗(André Malraux)的说法是,“让更多的人接近艺术作品和精神产品”,我觉得在这样的基础上,可以补充为,让更多的人以主动和最佳的状态
报纸
<正> 李××,男,34岁,山西武乡人,于64年11月20日入院。主诉:多饮、多食、多尿,全身消瘦,乏力,口渴,饥饿,尿量6000CC/日,皮肤干燥,夜寐欠佳,有明显的精神创伤史:父死、妻病、
<正>经历一百五十年的英国殖民地管治,香港的主体身份、地域视野、舆论空间受西方观念影响和塑造,因此诗歌面貌和情感结构极为复杂,有关香港诗歌史的书写亦成为一个终极性难
临床资料患者,男,43岁。肛周疣状增生物伴痒痛1个月余。患者1个月余前发现肛门右侧出现1个约黄豆大的肿物,有轻微痒痛,未予重视,自用红霉素药膏外涂,症状未见缓解,肿物迅速增大,
<正>小菜蛾(Plutella xylostella)危害蔬菜等作物近30种,在我国各地均普遍发生,尤以长江流域和南方诸省最为严重,它对化学农药抗性强,致使蔬菜农药残毒大大超标。为此,作为生
针对国内废钢产量的日益增加,70t电弧炉以废钢、生铁为主要原料,通过电弧炉炼钢,LF钢包精炼,VD真空处理,连铸管坯成型的短流程炼钢连铸成型工艺,废钢年处理量40万t,以70t超高
输电线路参数是电力系统重要的参数,精确测量输电线路参数对提高电力系统的安全运行水平具有重要的意义。待测输电线路通常会因线路间的电磁耦合产生很大的感应电压和感应电