基于分布式计算的网络爬虫技术研究

被引量 : 38次 | 上传用户:wb95879981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,网站技术日趋成熟,互联网上的站点也越来越多,信息量非常巨大,而人们的工作和生活中对互联网上的信息需求也越来越大,搜索引擎技术的重要性愈加明显。就目前来看,搜索引擎技术已经深入人心,贴近人们的生活,对人们生活影响越来越大,而网络爬虫是搜索引擎中至关重要的一个模块,它影响着搜索引擎的方方面面。基于单机的网络爬虫的抓取能力有限,已经不能完成当前的链接抓取更新的需求,这样就促使了基于分布式系统网络爬虫技术的出现,构建一套大区域、分布广的分布式集群系统,多台机器有效的合作、分工,可以有效的消除站点分散,各网间访问速度慢对网页抓取的影响,提高大数据量的计算速度,提高了网络爬虫的性能。分布式的另一个应用就是分布式存储,存储设计也是网络爬虫设计的一个很重要的环节,抓取到得的网页数据的存储方式影响了整个系统的性能,由于其数据吞吐量巨大,简单的数据库存储已经不能满足其需求,因此最好的解决办法就是采用分布式集群存储的方式。本课题在对上述技术研究的基础上,利用Java编程语言在Linux平台上实现了一套基于Hadoop分布式系统的网络爬虫,本系统具有抓取速度快、覆盖面广、可扩展性好、移植性强的特性,本文从分布式计算和分布式存储两个方面,对分布式网络爬虫系统的架构整体设计以及模块的具体实现流程进行了详细的研究和论述,给出详细的分布式网络爬虫的设计方案、系统整体原理架构图,各模块的MapReduce实现方式,以及各具体模块的具体实现流程。最后,为了验证该分布式网络爬虫的特性,搭建了一套Hadoop分布式系统测试环境,从功能性测试、性能测试和可扩展性测试三个方面出发,设计了详细的系统测试方案,依据该方案实施了实际数据的测试,并对测试数据进行了分析得出了系统的具体性能参数。
其他文献
金属板材在现代工程中应用日趋广泛,板中存在的缺陷对构件质量的影响也随之产生。与常规超声波检测相比,Lamb波能够对板材实现长距离、大范围检测。但Lamb波在板中的传播机理
信用评级作为授信业务的基础首要工作,起到了风险把控的第一道关口的重要作用。但是随着现有技术的不断发展,浦发银行执行了近17年的信用评级体系已经呈现出老态,部分技术指
目的生物类似药的研究不同于新药研发的思路和途径,其核心在于强调质量研究上的可比性或相似性,以及临床应用的等效性或非劣效性。生物类似药的质量研究不仅是保障药品安全性
<正>随着经济全球化的不断发展,市场竞争越来越激烈,企业使用传统的促销等手段已经难以提升企业的效益,必须不断寻求新的方法。而大量实践表明,战略联盟能够对提升企业创新能
<正>2003首届中国"创业杯"创业故事大赛38篇获奖创业故事进行专项调查.始终诱惑着我们的每一根神经,每一个细胞。对科技创业领域的优秀创业者而言.两年的时间绝对具有超平想
本文在学生如何学习声乐方面进行了研究与探讨 ,指出了学习声乐普遍存在的问题 ,并指导学生如何获得学习声乐的有效方法 ,解决声乐学习中一些难点问题
期刊
公平和效率既是社会发展的两个必要条件,同时也是社会保障法的重要价值定位。在实践中坚持效率与公平的对立统一关系,经历了从"效率优先,兼顾公平"到"兼顾效率与公平"的调整,
当今中国的行政问责基本上是由突发事件引起的。突发事件行政问责具有实现民主控制、改进政府应急管理绩效、提升公共安全服务品质、维持治理的合法性以及在灾难或处置失败的
目的探讨生物类似药研发评价的相关问题。方法结合《生物类似药研发与评价技术指导原则》(试行)(以下简称《指导原则》)的起草工作,从生物类似药的起源、现行法规中相关内容
背谱是钢琴表演最基本的要求,只有背谱演奏才能更好地进行表演。每个学琴者的背谱能力都需要不断加强培养。就如何提高这种能力要进行简要分析,探究钢琴背谱训练中的记忆理论