Hadoop平台性能预测与调优方法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:zmaozhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,Hadoop分布式计算平台被广泛应用于工业界中解决大规模数据处理相关问题。一个庞大的计算集群对于任何一个企业来说在财政上都是一个不小的考验,同时也是企业中共用的宝贵资源。为了提高集群资源使用效率,以及有效的对集群的使用进行可控性管理,对所需执行任务的执行时间进行预测变得格外重要,同时对集群性能进行优化也是提高集群使用效率的重要手段。本文利用仿真技术对Hadoop平台的性能预测和参数调优进行研究,具体工作主要包含以下三个方面。1.基于Hadoop运行流程的仿真方法研究。本文对Hadoop的主要组件:资源调度管理器(YARN)、集群网络传输模型、分布式文件系统(HDFS)和MapReduce过程的运行流程进行详细仿真,采用事件驱动的仿真方法模拟实际集群执行作业的完整过程,实现对作业运行时间的准确预测。2.MapReduce作业运行时间预测方法研究。MapReduce是Hadoop系统执行作业的主要工作模式,也是最复杂、对性能影响最大的部分,本文对MapReduce的运行时间特性进行研究,将MapReduce过程划分为Map任务和Reduce任务,分析单节点上Map任务或者Reduce任务的执行时间与并行个数的关系,建立预测模型,实现对MapReduce过程运行时间的预测。为验证本文仿真预测方法的准确性,在最大有80个节点的三个集群规模环境上进行了实验,并将Terasort、Wordcount和Hive作为系统测试用例类型。实验表明,仿真结果与系统实测的误差率小于10%。结果证明,论文的仿真方法能够实现大规模数据中心的准确仿真,并具备良好的通用性、可靠性和可扩展性。3.Hadoop参数自动调优方法研究。本文提出了一种基于微操作的Hadoop参数自动优化的方法。通过将整体运行过程进行解构,定义参数直接影响的微操作模型,可以对参数的变化进行定量的分析,再基于微操作模型对Hadoop运行过程进行重构,从而建立整体运行时间和参数的关系,最后再应用搜索优化算法搜索得出最优参数值。为验证方法的有效性,在集群上测试了Terasort和Wordcount两种作业类型,相对于默认参数情况,该方法对作业执行时间分别缩短了至少41%和30%。实验结果表明该方法能够有效提高Hadoop作业执行效率,缩短作业执行时间。
其他文献
肺缺血再灌注(I/R)损伤可在多种临床情况下发生,包括心肺转流、肺栓塞与肺移植等,是肺移植后致使移植肺功能不全的一个主要原因。细胞凋亡作为对损伤的反应,是一种独特的单细胞死亡
期刊
<正>教学设计思路高中历史必修Ⅲ第22课"孙中山的民主追求"主要介绍孙中山的三民主义,内容在必修Ⅰ"内忧外患与中华民族的奋起"和必修Ⅱ"工业文明的崛起和对中国的冲击"单元
小提琴演奏是十分高级的、复杂的、融合生理与心理的一项舞台表演艺术,演奏者的心理状态会对舞台演奏效果产生直接影响,这在一定空间与时间里是不能重复且无法挽救的,应积极
<正>一是国家相关部门出台完善政策,重新解释或规范PPP定义。PPP模式,即政府和社会资本合作(Public-Private Partnership,简称PPP)。但是,从国外的Private(本意为"私人资本")
为了探讨生肌中药黄芪、乳香促进伤口修复机制,试验以小鼠胚胎成纤维细胞NIH3T3为研究对象,通过黄芪提取物和乳香提取物分别对小鼠胚胎成纤维细胞NIH3T3的生长干预,通过检测
总结了"十一五"期间我国环境监测网络建设的成绩,提出了"十二五"国家环境监测网建设的指导思想和发展目标以及当前应当重点做好的几项工作。
油画作为一种古老的绘画形式,以其独有的情感表达方式经久不衰。并且,油画作品作为视觉艺术的一部分,其风格表现受时代因素的潜在影响。本文分为四个部分:第一部分是总体的绪论内容,从文章研究的大的背景和意义分别展开论述。第二项主要是以个人的艺术作品方向的实践中所涉及的过程和创作报告。在个人绘画创作的文案的报告中,分别从四个方面来对创作的作品《面具童年》系列的内容主导方向分别的说明:首先,对相关文献资料和绘
<正>走进西安高新逸翠园学校,空气中不时飘过欢歌笑语,校园里不时闪过豆蔻身影,孩子们或倾心于音乐,或陶醉于美术,言谈举止间透着逸翠园学子特有的气质。这是一所师资队伍一
“兴”不仅是人们所熟悉的中国传统诗歌理论术语 ,也是一种积极的言语表达行为。“兴”与歌的关系极为密切 ,它的主要作用是凑足音节、协调韵律 ,因而可以说“兴”是诗歌的语