分布式爬虫应用中布隆过滤器的研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户：yizhanghong

【摘要】

：

随着网络技术的持续发展,互联网范围内存储的信息总量呈几何倍数的增长。互联网上所储存的海量复杂的网络信息给人们提供更多消息来源的同时也增大了人们在海量数据中检索有

【作者】

：

张笑天

【出处】

：

沈阳工业大学

【发表日期】

：

2017年期

【关键词】

：

布隆过滤器 URL去重分布式网络爬虫 Hadoop

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络技术的持续发展,互联网范围内存储的信息总量呈几何倍数的增长。互联网上所储存的海量复杂的网络信息给人们提供更多消息来源的同时也增大了人们在海量数据中检索有用信息时的负担,以分布式为核心的云计算技术就是在这一背景下迅速发展起来的。而如何有效的消除检索过程中出现的重复信息提高检索效率,一直是互联网研究的一个重点。目前,在所有的消重检索算法中,布隆过滤器是较为优秀的一种,其实现原理是利用多个哈希函数对相应源数据进行空间映射压缩,并利用位数组简洁地存储与表示一个集合。在查询过程中,仅通过一次Hash映射过程即可判断一个元素是否属于这个集合,具有较少的空间占用率和较高的数据查询效率,其在多个领域都有很好地应用效果。本文研究的目的是降低布隆过滤器在分布式网络爬虫URL去重过滤中的误判率,以及当获取的网页URL链接数据量超过布隆过滤器设计的位数组所能容纳的元素上限时,算法本身能够对过载数据具有一定的容忍能力。因此,本文首先从布隆过滤器工作原理出发,找出布隆过滤器在分布式网络爬虫URL去重应用中存在的缺陷,并分析缺陷产生的原因。其次,通过借鉴布隆过滤器一些改进算法对其改进思路的启发,提出一种更适合于分布式网络爬虫URL消重模块的改进型布隆过滤器算法-K分多映射布隆过滤器算法。最后,通过实现一个简单的基于Hadoop的分布式网络爬虫工具,验证改进型布隆过滤器算法在实际的分布式网络爬虫URL消重应用中的效果,通过对其实际执行效果分析得出结论,为进一步改进布隆过滤器在分布式网络爬虫URL去重中的应用提供参考。

其他文献

一位CFO的心声

如果你从一开始就了解企业所有者和关键人员的动机,了解他们为什么要做正在做的事,从这些方面出发,你会更加了解这个行业和客户所处的境遇,了解他们有怎样的机遇,以及亟待解

期刊

战略框架业务多元化会计业务展望未来CFO额外收入下行压力记账

注册制下前瞻改革新动能与投资新方向

在制度层面,需要真正落实发行上市注册制,严格退市制度,大力推动交易投资、产品创新,加大投资人保护力度通过这些改革就能更好地把整个市场的有效运行和监管制度的积极有为结

期刊

注册制中国资本市场退市制度新动能发行上市监管制度投资人保护发展历程

PVC阻燃型卷材粘贴密闭储粮试验

高大平房仓内吊顶粘贴PVC阻燃型卷材,解决钢结构仓顶密闭性差的问题,提高仓内害虫的灭杀效果。

期刊