论文部分内容阅读
近年来,Hadoop分布式计算平台被广泛应用于工业界中解决大规模数据处理相关问题。一个庞大的计算集群对于任何一个企业来说在财政上都是一个不小的考验,同时也是企业中共用的宝贵资源。为了提高集群资源使用效率,以及有效的对集群的使用进行可控性管理,对所需执行任务的执行时间进行预测变得格外重要,同时对集群性能进行优化也是提高集群使用效率的重要手段。本文利用仿真技术对Hadoop平台的性能预测和参数调优进行研究,具体工作主要包含以下三个方面。1.基于Hadoop运行流程的仿真方法研究。本文对Hadoop的主要组件:资源调度管理器(YARN)、集群网络传输模型、分布式文件系统(HDFS)和MapReduce过程的运行流程进行详细仿真,采用事件驱动的仿真方法模拟实际集群执行作业的完整过程,实现对作业运行时间的准确预测。2.MapReduce作业运行时间预测方法研究。MapReduce是Hadoop系统执行作业的主要工作模式,也是最复杂、对性能影响最大的部分,本文对MapReduce的运行时间特性进行研究,将MapReduce过程划分为Map任务和Reduce任务,分析单节点上Map任务或者Reduce任务的执行时间与并行个数的关系,建立预测模型,实现对MapReduce过程运行时间的预测。为验证本文仿真预测方法的准确性,在最大有80个节点的三个集群规模环境上进行了实验,并将Terasort、Wordcount和Hive作为系统测试用例类型。实验表明,仿真结果与系统实测的误差率小于10%。结果证明,论文的仿真方法能够实现大规模数据中心的准确仿真,并具备良好的通用性、可靠性和可扩展性。3.Hadoop参数自动调优方法研究。本文提出了一种基于微操作的Hadoop参数自动优化的方法。通过将整体运行过程进行解构,定义参数直接影响的微操作模型,可以对参数的变化进行定量的分析,再基于微操作模型对Hadoop运行过程进行重构,从而建立整体运行时间和参数的关系,最后再应用搜索优化算法搜索得出最优参数值。为验证方法的有效性,在集群上测试了Terasort和Wordcount两种作业类型,相对于默认参数情况,该方法对作业执行时间分别缩短了至少41%和30%。实验结果表明该方法能够有效提高Hadoop作业执行效率,缩短作业执行时间。