分布式爬虫应用中布隆过滤器的研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:yizhanghong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的持续发展,互联网范围内存储的信息总量呈几何倍数的增长。互联网上所储存的海量复杂的网络信息给人们提供更多消息来源的同时也增大了人们在海量数据中检索有用信息时的负担,以分布式为核心的云计算技术就是在这一背景下迅速发展起来的。而如何有效的消除检索过程中出现的重复信息提高检索效率,一直是互联网研究的一个重点。目前,在所有的消重检索算法中,布隆过滤器是较为优秀的一种,其实现原理是利用多个哈希函数对相应源数据进行空间映射压缩,并利用位数组简洁地存储与表示一个集合。在查询过程中,仅通过一次Hash映射过程即可判断一个元素是否属于这个集合,具有较少的空间占用率和较高的数据查询效率,其在多个领域都有很好地应用效果。本文研究的目的是降低布隆过滤器在分布式网络爬虫URL去重过滤中的误判率,以及当获取的网页URL链接数据量超过布隆过滤器设计的位数组所能容纳的元素上限时,算法本身能够对过载数据具有一定的容忍能力。因此,本文首先从布隆过滤器工作原理出发,找出布隆过滤器在分布式网络爬虫URL去重应用中存在的缺陷,并分析缺陷产生的原因。其次,通过借鉴布隆过滤器一些改进算法对其改进思路的启发,提出一种更适合于分布式网络爬虫URL消重模块的改进型布隆过滤器算法-K分多映射布隆过滤器算法。最后,通过实现一个简单的基于Hadoop的分布式网络爬虫工具,验证改进型布隆过滤器算法在实际的分布式网络爬虫URL消重应用中的效果,通过对其实际执行效果分析得出结论,为进一步改进布隆过滤器在分布式网络爬虫URL去重中的应用提供参考。
其他文献
如果你从一开始就了解企业所有者和关键人员的动机,了解他们为什么要做正在做的事,从这些方面出发,你会更加了解这个行业和客户所处的境遇,了解他们有怎样的机遇,以及亟待解
在制度层面,需要真正落实发行上市注册制,严格退市制度,大力推动交易投资、产品创新,加大投资人保护力度通过这些改革就能更好地把整个市场的有效运行和监管制度的积极有为结
高大平房仓内吊顶粘贴PVC阻燃型卷材,解决钢结构仓顶密闭性差的问题,提高仓内害虫的灭杀效果。
南粤交通通过实施资金财务共享有效助力集团财务向管理会计转型升级。广东省南粤交通投资建设有限公司(下称"南粤交通")经过六年多的快速扩张和发展,总资产超过2,000亿元,净