布隆过滤器在网页去重中的研究与应用

被引量 : 20次 | 上传用户:JK0803_gengjixiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络信息呈爆炸性的增长。大量的信息一方面给人们带来了更多的消息来源,而另一方面也给人们搜索有用的信息带来巨大的负担。根据中国互联网络信息中心CNNIC在2012年的统计:2011年全球网页的数量已经达到866亿个,而2012年这个数字已经增加到了1227亿个。因此如何更有效的消除互联网中的重复信息,让人们便捷的找到所求,已经成为现代互联网的一个重要的问题。布隆过滤器(Bloom Filter)是1970年提出的一种去重算法,它实际上是由一个很长的二进制向量和一系列随机映射函数组成的。如今,他已经运用在了很多领域,并且通过国内外的研究,逐渐改进了算法的缺点。本文从理论和应用同时入手,通过实验的方法,找到布隆过滤器在网页去重领域比较好的改进方案。首先,本文介绍了重复网页的概念和种类,总结了重复网页产生的原因。并且简要介绍了一些相关概念。其次,重点介绍了布隆过滤器以及其改进算法。以改进布隆过滤器的缺陷为出发点,选定了计数布隆过滤器和多维布隆过滤器这两种改进算法,并且在理论上对它们进行了分析,阐述了三种算法运行效率和优缺点。最后,论文进行了实验设计,通过创建一定规模的集合来分析三种算法,并且根据分析结果得出了结论,为进一步改进布隆过滤器在网页去重中的应用指出了参考方向。
其他文献
目的通过研究肩峰下撞击综合征患者,其不同肩峰形态对Neer撞击试验阳性时肩关节屈角度的影响,探讨两者之间存在的差异性及其值的分布规律,同时研究左右两侧患肩对Neer撞击试
目的:探讨并分析诊断肝脏孤立性坏死结节时CT和MRI在其中的价值。方法:选取诊断为肝脏孤立性坏死结节的13例患者的相关临床资料,对其加以整理总结并分析,运用CT及MRI技术对患
在小学英语教学中,英语单词记忆是学生学习英语的最大障碍。为提高教学质量,需要根据小学生的实际情况,培养学生对英语的兴趣,并采取科学合理的单词记忆法,引导学生积极学习
供电企业变电运行中的安全问题至关重要,工作人员的违规操作及失误等都会给供电企业的变电运行带来危害。本文以35KV电力系统变电运行的安全管理入手,着重探讨供电企业变电运
目的探讨低颅压交通性脑积水治疗方法与临床效果。方法将有临床表现和经影像学证实的低于正常颅压脑积水患者29例,随机分为可调压组(16例)和固定压组(13例)。可调压组采用可
<正>古人云:"书读百遍,其义自见"。"熟读唐诗三百首,不会作诗也会吟。"张田若先生则说得更进一层:"阅读教学第一是读,第二是读,第三还是读。"这些都是强调多读的好处,对于理
公众日益提升对意外事故和人身伤害的重视程度,人们纷纷寻找救济和保护措施,以避免灾害带来的众多不利影响。保险在分散危险、减轻损害方面的功能满足了公众对于规避灾害的需
我国是海洋大国,海域辽阔,海岛众多。在我国300万平方公里的管辖海域中,分布着成千上万个海岛。海岛是我国经济社会发展中一个很重要的区域,在国家权益、安全、资源、生态等
概述:骨髓增殖性肿瘤(tnyeloproliferative neoplasms,MPN)是指分化相对成熟的-组造血干细胞的肿瘤性疾病,表现为一系或多系骨髓细胞不断地克隆性增殖。真性红细胞增多症(PV)
随着国际经济合作的纵深发展,航运业对于具有较强沟通能力的船员需求也日渐增强,以期其能适应多语言背景的船上作业。同时,英语作为海上工作的通用语言,对于非英语母语的船员