基于hadoop的分布式网络爬虫研究与实现

被引量 : 0次 | 上传用户:gbbzwklk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的迅速发展,Web信息呈指数增长,数据呈现出数据量大,数据种类多,实时性强,价值大等特点,同时人们对于方便快捷高效地获得信息的需求也越来越强烈,这些需求促进了云计算的快速发展。在这样的背景下,谷歌、IBM、Apache和亚马逊等大型公司争相发展云计算,其中由Apache领导开发的Hadoop平台是一个非常优秀的开源云计算处理框架。本文所研究和开发的分布式网络爬虫就是在此框架的基础上设计和实现的。本文在分析了分布式爬虫发展现状和研究了Hadoop平台的分布式文件系统(HDFS)和计算模型(Map/Reduce)相关理论和技术的基础上,给出了基于Hadoop的分布式网络爬虫系统的总体概要设计,包括分布式爬虫系统的框架设计、基本工作流程设计、功能模块划分。在概要设计的基础之上进行了系统的详细设计和实现,包括数据存储结构的实现、爬虫总体类结构和各个功能模块的实现。最后,对全文进行总结。本文实现了一个基于Hadoop的分布式网络爬虫系统,该系统采用Map/Reduce分布式计算框架和分布式文件系统解决了单机爬虫效率低、可扩展性差等问题,提高了网页数据爬取速度并扩大了爬取的规模。
其他文献
本文介绍了当前互联网的缺点与发展的局限性,从下一代互联网产生的背景以及必要性着手,阐述了以IPv6技术为核心的下一代互联网的发展现状及主要技术优势,并展望了下一代互联
酸化仔猪早期断奶后,由于乳酸来源中断,而胃酸分泌仍较少,严重影响消化。应对断奶仔猪饲料进行酸化处理。可在仔猪饮用水或饲料中添加1%~3%的柠檬酸或乳酸,使饲料的PH值降到5;也可在
我国慢性HBV感染人群基数较大,近些年随着人们生活水平的提高及饮食结构改变,非酒精性脂肪肝的人群亦随之增加,但对慢乙肝合并脂肪肝的相关研究并不多。此文就国内外慢乙肝合
高精度的、实时的盾构姿态测量是盾构自动导向系统的基础。在本课题组提出的基于CCD的盾构姿态测量方案的基础上,本文重点分析姿态测量方案中的误差来源,并对误差补偿方法进
水产胶原是一种从水生动物中提取出的胶原。我国渔业资源极其丰富,但同时也产生了大量的水产品废弃物。在这些水产废弃物中,鱼皮是提取胶原很好的原料,鱼皮干物质中70%以上为胶原
全球科技和经济迅猛发展造成传统石化能源的快速消耗,并给环境带来了严重的负担与污染,开发高效清洁能量存储材料和转换装置是能源化学领域的研究热点。超级电容器和燃料电池
我国饲料技术创新现状及存在的突出问题我国科技管理制度是计划经济的产物,由国家根据国民经济需要安排研究课题,从财政中拨出研究经费,研究完成后由国家管理部门组织鉴定、
资料处理是大地电磁测深工作中的重要环节。在野外测量数据量大,并且要求相互做远参考处理的情况下,由于SSMT-2000大地电磁资料处理软件在批处理上的限制,室内资料处理的工作
ASP.NET是当今主流动态Web开发应用技术之一,广泛地应用于电子商务、电子政务、远程教育等领域;分析了高职ASP.NET课程的教学现状,研究了ASP.NET技术的学习步骤,并对ASP.NET