【摘 要】
:
据美国计算机协会统计,重复网页数量约占网页总量的30%-45%。伴随搜索引擎数量不断增加,用户对搜索引擎体验要求的提高,搜素质量成为各搜索引擎赢取用户的砝码。搜索引擎若能够
论文部分内容阅读
据美国计算机协会统计,重复网页数量约占网页总量的30%-45%。伴随搜索引擎数量不断增加,用户对搜索引擎体验要求的提高,搜素质量成为各搜索引擎赢取用户的砝码。搜索引擎若能够及时去除这些重复网页,系统不仅能节省大量存储空间,间接降低设备采购成本,也能提高网络的检索质量和访问效率,提高用户体验满意率。网页正文内容的特征提取以及大规模相似性比较是网页去重的关键问题。按照传统算法的各自突出特点将其分为三类:基于URL去重算法,仅能根据URL地址去除完全重复网页;基于特征串匹配去重算法,具有较高的准确率,但去重时间消耗高;基于聚类去重算法,具有较高的召回率,对于一些新闻题材或模板类文章准确率较低。分析转载网页发现,重复网页在内容上可能有变化,但文档格式较少发生改变,即网页正文结构几乎不变。针对此特点,本文提出基于正文结构树的两个去重算法。通过分析重复网页发现,长句不具有主题代表性。面对网页采集器更改规则,越长的句子表现越脆弱。本文对基于正文结构及长句去重算法进行改进,提出基于正文结构树及关键句的算法。算法中提取包含关键词的句子作为特征句,且特征句的数目由段落长度决定,使得提取的特征句的数目更全面的概括文章内容。实验表明,改进算法去重准确率、召回率都有所提高。特征项的粒度越小,散列后的特征指纹越不易被干扰。依据此特性,本文提出了基于正文结构树及特征串的去重算法。首先,此算法中提取网页中高频标点所在句子中的首尾汉字作为特征码。其次,利用Bloom Filter算法获取特征指纹。最后,按层次指纹进行相似度判别。实验表明,此算法在召回率方面有大幅度提高,在对小文档去重上表现的尤其明显,且大大降低了去重时间。
其他文献
全球化趋势使中国物流行业得到空前发展,现代物流业的崛起已成为不可逆转的潮流,物流业的飞速发展给物流企业财务管理带来了深远的影响。文中在分析目前物流企业财务管理现状
由于公路在空间上多为线形分布,分布地域广、分散性大,若盲目的对黄土暗穴进行工程处理,显然不够经济合理,且在不能明确暗穴分布对桩基承载力影响程度的情况下,即使对暗穴进
本文运用韩礼德系统功能语法中三大纯理功能之一的概念功能理论,通过及物性系统中六大过程来探讨卡梅伦就职演说中概念功能的实现。主要对其物质过程、关系过程、心理过程的
<正>供应商管理的挑战南方电网公司每年投资规模接近千亿,其中设备材料的采购金额占了约40~50%,合作的物资供应商两千多家。物资供应商的管理,不仅关系到公司的成本管理,还影
近年来,医疗卫生体制改革一直是政府和社会关注的焦点,公立医院的治理改革又是其核心问题。公立医院作为公共医疗的重要组成部分,其治理结构改革是维护公立医院公益性的重要制度
褐煤水煤浆气化是一种新型的褐煤加工技术,具有用途广泛、经济效益等一系列优点,在自然资源日益匮乏的今天,褐煤水煤浆气化的经济性能得到大部分人的关注。本文由褐煤水煤浆
目的调查中期妊娠引产孕妇对镇痛的认知程度。方法选择100例中期妊娠引产孕妇进行镇痛宣教,分别于宣教前后进行问卷调查,并对71例接受镇痛孕妇镇痛后的满意度进行调查。结果
随着时代的发展,高职教育有了前所未有的发展,这对高职院校辅导员的工作也提出了比先前更高的要求。本文主要从高职院校辅导员的工作实效性出发,对如何提高高职院校辅导员家
针对植物胶压裂液对储层伤害大的问题。本文从降低压裂液伤害率入手,室内合成出压裂液稠化剂和交联剂,降低了压裂液稠化剂使用浓度,经复配形成超低浓度线性胶压裂液。室内评
风能作为当今世界应对能源和环境危机最有效的可再生能源之一,已经受到了全球范围内的广泛关注。近年来,世界风力发电产业迅猛发展,我国风电市场的发展也取得了骄人的成果,并展现