论文部分内容阅读
随着Internet技术的迅速发展,Web信息呈指数增长,数据呈现出数据量大,数据种类多,实时性强,价值大等特点,同时人们对于方便快捷高效地获得信息的需求也越来越强烈,这些需求促进了云计算的快速发展。在这样的背景下,谷歌、IBM、Apache和亚马逊等大型公司争相发展云计算,其中由Apache领导开发的Hadoop平台是一个非常优秀的开源云计算处理框架。本文所研究和开发的分布式网络爬虫就是在此框架的基础上设计和实现的。本文在分析了分布式爬虫发展现状和研究了Hadoop平台的分布式文件系统(HDFS)和计算模型(Map/Reduce)相关理论和技术的基础上,给出了基于Hadoop的分布式网络爬虫系统的总体概要设计,包括分布式爬虫系统的框架设计、基本工作流程设计、功能模块划分。在概要设计的基础之上进行了系统的详细设计和实现,包括数据存储结构的实现、爬虫总体类结构和各个功能模块的实现。最后,对全文进行总结。本文实现了一个基于Hadoop的分布式网络爬虫系统,该系统采用Map/Reduce分布式计算框架和分布式文件系统解决了单机爬虫效率低、可扩展性差等问题,提高了网页数据爬取速度并扩大了爬取的规模。