基于Hadoop的MapReduce计算模型优化与应用研究

被引量 : 0次 | 上传用户:xiaowangdoc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,特别是近年来,突飞猛进的移动互联网和电子商务的发展,网络已经进入了互联网+时代。“互联网+”时代具有如下特点:大规模数据集,多终端等。企业建立一套IT系统不仅需要购买硬件等基础设施,还需要专人维护。当企业的规模扩大时还要继续升级各种软硬件设施以满足需要,传统数据处理方法存在数据存储成本过高、数据管理效率低、可靠性较低、并行处理程序编写复杂等不足。尤其是对于中小企业,计算机等硬件和软件本身并非所需,提高计算和存储效率才是其真正的期盼。云计算通过整合服务器集群中的闲散资源,为大数据分布式存储、并行计算等提供了一个有效解决方案。Hadoop以其开源、可伸缩与低成本等优势,已成为一种主流的云计算平台。但是,在某些应用场景,Hadoop也存在一定的缺陷。例如MapReduce的Mapper会产生大量中间结果,而这时的Reducer并没有被调用来合并这些中间结果,增加了网络传输大量中间结果的负担以及造成Reducer的闲置,总体上降低了MapReduce的效率。本文通过对MapReduce计算模型的工作原理、运行机制和容错机制的研究,提出了一种MapReduce计算模型优化方案。即在Yarn框架中,使用MPI技术实现Reducer与Mapper并行处理中间结果。通过实验可知,本方法提升了MapReduce计算效率,降低了计算与存储的耦合性。另外,通过应用实例——重点污染物排放量测算系统,在不改变该系统的基础上,利用Sqoop数据迁移技术,结合优化后的MapReduce计算模型和存储技术的优点,设计并实现了一种关系型数据库和分布式数据库并存的方案,以期解决关系数据库的存储和访问效率等问题,在实现存储和计算分离的同时降低了中小企业的硬件开支。
其他文献
<正>营养价值:1.红菇含蛋白质、碳水化合物、矿物质、维生素B、维生素D、维生素E,并含有其他食品中稀少的尼克酸,微量元素铁、锌、硒、锰等。2.含有人必需的多种氨基酸等成分
姜寨一期墓地再探赵春青AsoneofthetypicalcemeteriesofearlyYangshaoCulture,thetperiodcemeteryofJiangzhaiinLintongCounty,ShaansiProvinceisaw...
大卫·米切尔(David Mitchell)的《云图》(Cloud Atlas)是千禧年来小说中的一部佳作。《云图》中的六个故事发生在六个不同的时代和地点,作者也采用了六种截然不同的写作风格
1.研究背景绝经后骨质疏松症骨折是绝经后骨质疏松症(Postmenopausal osteoporosis,PMOP)最具破坏性的结局。目前已为危害中老年妇女身体健康的严重疾病。如何有效的早期预测
随着近年来滑雪运动在中国悄然兴起,很多地区快速完成了滑雪场地的建设,国内滑雪人数呈跳跃式增长,冰雪旅游发展呈现出令人振奋的势头。天然的滑雪场已不能满足国内特别是南方地
当下,文化已成为衡量国家或地区发展的重要指标,成为国与国之间新的竞争领域,十七届六中全会正是在此背景下提出了建设社会主义文化强国这一重大发展战略。文化硬实力不仅是
1985年瑞典皇家学院将诺贝尔文学奖颁发给了克洛德·西蒙。得奖时,西蒙已孜孜不倦地在文学道路上探索了四十多年,本文所要研究的《农事诗》(1981)是其耗时最久的一部作品,以
随着互联网的极速发展,互联网产生的信息数据成爆炸式增长。互联网已经从信息匮乏迅速转入信息过于庞大而难以甄选有效信息的时代。文本信息作为传递信息的一种载体,依然是人
软件定义网络(Software Defined Networking, SDN)通过软件的形式重构了现有网络,其集中控制、控制与数据分离以及可编程开放等特性对未来网络技术的发展产生深远影响。从安