基于Hadoop分布式网络爬虫技术的研究

被引量 : 11次 | 上传用户:hoko0428001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展,互联网上站点越来越多,简单的网络爬虫已经不能实现对某些大型站点的大数据存储。解决该问题的最关键是引入分布式存储技术。Hadoop是具有分布式存储HDFS(Hadoop Distributes File System)和分布式计算MapReduce功能的软件框架,因此对基于Hadoop的分布式网络爬虫的研究具有重要的意义。本文对Hadoop存储系统和网络爬虫技术分析后,对计算URL权重算法进行了改进,搭建了分布式爬虫的整体架构,设计并实现了各个爬虫模块。文中主要研究如下:(1)传统的URL权重算法只考虑了网页的目录深度和重要度,本文改进的算法中增加了对网页内容重要度的考虑,提高了URL计算权重的精度。(2)由于在网络爬虫抓取过程中需要频繁的解析URL,导致对DNS服务器的压力过大。本文采用了DNS缓存技术,实现了在短时间内解析同一主机名下的URL时,将之前解析过且被存在缓存中的结果直接进行利用。(3)为了解决爬虫过程中爬取链接重复的问题,采用了布隆过滤器对URL进行消重的方法。在更新模块设计了网页更新算法,该算法是只有在网页变化时,才将新的URL加入到未访问的URL队列中。本文在Hadoop分布式框架的基础上,对网络爬虫中的线程和节点的性能进行了测试,并对所得到的数据进行了分析,相比传统的分布式网络爬虫,提出的分布式网络爬虫具有较高的抓取效率。
其他文献
目的:观察隔姜蒜督灸治疗强直性脊柱炎(ankylosing spondylitis,AS)的临床疗效,分析其对脊旁肌肌电图的影响,为强直性脊柱炎的治疗提供评价依据和方法。方法:筛选强直性脊柱炎患者6
棉花是喜光作物,棉花单叶光补偿点是750-1000lux,光饱和点是7-8万1ux,适应在充足的光照条件下生长。棉花生长发育过程中,花铃期是棉花产量、品质形成的关键时期,也是对外界环
地方政府性债务是我国经济目前所面临的巨大风险,它影响着财政资金安全。经过地方政府性债务审计风暴,地方政府性债务审计工作越来越被重视。但是,我国地方政府性债务审计实施中
目的:观察研究肾虚血瘀型多囊卵巢综合征患者体内纤溶酶原激活物抑制物-1(PAI-1)表达的影响及补肾活血方的作用机制。方法:选取欲行体外受精-胚胎移植(IVF-ET)多囊卵巢综合征(PCOS)患
本文结合《中华人民共和国预算法》最后一次修订和现今行政事业单位预算发展的形势,分析了新法律对单位预算所提出的新要求。针对目前单位预算所存在的问题并结合实际现象,提
随着当代科技的发展,Web应用程序的应用越来越多,相应地在程序开发方面,Web程序的开发技术也日益增多,然而多数Web应用程序都存在着系统结构复杂、扩展性以及可维护性较差、测试
目的观察电针华佗夹脊穴对佐剂性关节炎大鼠脊髓背角内磷酸化ERK表达的影响,从信号转导的角度研究电针镇痛可能的作用机制.方法以完全福氏佐剂(CFA)致炎性痛大鼠模型,采用免
本文主要研究信用利差的动态过程,并基于金融工程模型与宏观经济因子作出中美两国信用利差的实证分析。首先构建马尔科夫状态转换跳跃扩散模型,并基于2008年至2013年的数据资
在全球迎来信息时代的今日,飞速发展的通信事业已进入4G高速时代。然而,GSM网络仍拥有全球44亿用户,为人类提供世上最稳定可靠地语音服务,保障4G时代语音业务。GSM移动信息系统是
浙江长征职业技术学院为适应职业教育发展需要,自主开发了基于物联网的智能家居体验中心系统(以下亦称智能家居系统)并部署在专门组建的体验中心实训室内部,以便物联网专业通