一种基于链接结构的Spam网页过滤算法

来源 :第27届中国数据库学术会议 | 被引量 : 0次 | 上传用户:qiyongde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的高速发展,如何在海量信息中找到用户需求的高质量信息变得非常重要,技术难度较大。网页在搜索结果中排名是否靠前与巨大的商业利润相关联,这使得大量的垃圾网页出现在网络中。过滤Spam页面、给用户提供高质量的搜索结果成为当前Web搜索引擎的面临的一个巨大挑战。大量研究工作显示Spam页面之间存在着勾结的现象,分析Spam页面链接结构特性成为过滤Spam页面的重要方法。根据Spam网页链接结构存在的共性,提出了一种基于链接分析的Web Spam过滤方法。在标准检测数据集上进行实验,并与相关工作进行比较。实验结果表明,提出的方法能有效地对Spam网页进行过滤,提高搜索结果的质量。
其他文献
提出一种基于流形学习的特征提取方法——鉴别最大间距准则.该方法采用线性投影,保留最优的局部和全局信息数据集.试图找到具有最好鉴别能力的原始信息,使类间离散度最大的同时类内离散尽可能的小.该方法在识别率上比其它方法都有较大提高,通过在YALE和JAFFE人脸库上的实验验证该方法的有效性.
目的 比较不同剂量地佐辛与0.15%罗哌卡因配伍在老年人术后硬膜外镇痛的应用效果及不良反应.方法 腰麻和硬膜外联合椎管内麻醉下经尿道前列腺电切术男性患者60例,按不同硬膜外
A key issue, which influences the applications of magnetic flux leakage testing, is defect quantification. There have been many research on the relationship bet
To estimate the angle of arrivals (AOA) of wideband chirp sources, a new time-frequency algorithm is proposed.In this method, virtual sensors are constructed ba
随着知识经济的发展和企业灵活应对市场变化的需要,知识已成为企业中重要的资产.以浙江省电力试验研究院为例,其知识的复杂性和庞大的数量已无法用人工来管理,工程师要完成设
The hydrogen content in liquid binary aluminum alloys with 1,3,5 and 8 wt% iron has been determined in the temperature range from 973K to 1103K.The hydrogen con
在电力系统动态等值中,如果各发电机励磁系统模型相同,则等值励磁系统的模型可以采用单机励磁系统模型,其等值参数可以采用加权求和法方便地获得.文中针对各发电机励磁系统可
伪反馈一直以来都被认为是一种有效的查询扩展技术.但是近来的研究表明传统的伪反馈容易带来主题漂移并因此而影响检索性能.如何确定相关文档以及如何从相关文档中挑选有用的
在语义Web服务发现中,服务本身及用户所处的语境是不可忽视的因素.针对现有服务发现方法的不足,给出一种基于语境和动作推理的语义Web服务发现方法.该方法通过建立基于动作的
随着Web2.0技术的发展,大规模在线社会网络数据的获取成为了可能,这激发了众多研究者对社会网络的研究热情.近年来,社区发现成为社会网络领域的研究热点.研究了社会网络社区