论文部分内容阅读
进入21世纪,互联网取得了飞速的发展,其所包含的信息量正在以指数型趋势高速增长,由此导致人们在这海量的信息中需要花费大量的精力来找寻自己需要的信息,因此人们对于随时随地获取自身所需求信息的渴望越来越强烈。正是基于这一情况,云计算获得了发展的契机。全球范围内包括Google、IBM、Apache和Amazon等大型公司在内,都对云计算投入了大量的人力、物力、财力。其中Apache站在用户的角度开发了Hadoop平台,是一个开源云计算框架。本文经过研究后开发的分布式爬虫系统就是在此框架下设计并且实现的。本文的目的主要是为了设计并实现一个基于Hadoop的分布式爬虫系统,通过这个系统,实现对大规模数据采集的任务。同时,该爬虫系统采集信息类型非常广泛,能够对全球多种语言的主流新闻网站进行信息采集。此系统采用分布式信息采集模式。另外,多种语言信息并没有统一保存在一起,而是进行了独立保存,这样能够为后面跨语言处理提供便利。本文主要研究了以下几个部分:首先,对云计算相关知识进行具体的介绍;其次,介绍了Hadoop分布式平台相关知识;再次,通过文献资料等方法调查了网络爬虫原理发展现状。上面的研究是本文的一个根本基础,正是在这个基础上,我们提出了基于Hadoop的分布式网络爬虫系统的设计方案。设计方案不仅包含了系统的设置流程,而且详细介绍了本系统的基本框架。另外,还包括了系统功能模块的划分以及各模块的Map/Reduce设计。为了进一步完善本系统,本文还对系统做出来更为具体的设计,使得系统更加稳定可靠。最后,对本文进行了总结,提出了文章今后进一步研究的方向。总之,本文的主要意义在于设计并且实现基于Hadoop的分布式爬虫系统,该系统不仅改变了以往爬虫系统效率低下的问题,而且使得系统的可扩展性得以提高。另外,信息采集速度的规模也逐步得到了提高,如此一来为“分布式跨语言信息获取和检索平台”的索引模块和信息处理模块提供有效数据。