论文部分内容阅读
随着云计算技术的发展成熟,云计算为企业提供了一种大数据的解决方案。Hadoop是Apache组织下的一种开源分布式云计算框架的实现,由于其具有高可靠性、高扩展性以及高容错性等优点,被诸多企业广泛地用于大数据的处理。MapReduce是Hadoop对数据进行分布式处理的核心组件,其作业调度算法决定了MapReduce的性能,影响到整个Hadoop系统的性能。目前,现有的Hadoop作业调度算法中Reduce任务调度算法过于简单,制约了Hadoop系统性能的提升。一方面,存在小作业Reduce任务的饥饿以及较低的资源利用率的问题,另一方面,没有考虑到Reduce任务的数据本地性的优化。
本文针对Hadoop平台作业调度算法展开了研究,并对其Reduce任务调度算法进行了优化。本文的主要工作如下:
1)深入分析了小作业Reduce任务的饥饿以及较低的资源利用率的问题,提出了一种任务时间估计模型,并基于此模型提出了一种改进算法SBOTM(Scheduler Based On Time Model),将SBOTM算法的实现嵌入到当前比较流行的公平调度器中,通过与原生的公平调度器比较,该算法有效地改善了小作业Reduce任务的饥饿问题,提高了作业的执行效率,并一定程度上提高了资源利用率。
2)深入分析了Reduce任务的数据本地性问题,并提出了一种延迟调度算法DSORT(Delay Scheduler Of Reduce Task),将延迟调度的思想应用到Reduce任务的数据本地性的优化上,并将DSORT的实现嵌入公平调度器中,最后,通过与原生的公平调度器比较,该算法大大提高了Reduce任务的数据本地性,减少了网络传输开销,缩短了作业的执行时间。
本文提出的算法有效地改善了Hadoop自带的Reduce任务调度算法,提高了作业的执行效率,优化了Reduce任务的数据本地性,降低了网络传输代价,并且算法具好扩展性,可移植到其他的调度器当中。
本文针对Hadoop平台作业调度算法展开了研究,并对其Reduce任务调度算法进行了优化。本文的主要工作如下:
1)深入分析了小作业Reduce任务的饥饿以及较低的资源利用率的问题,提出了一种任务时间估计模型,并基于此模型提出了一种改进算法SBOTM(Scheduler Based On Time Model),将SBOTM算法的实现嵌入到当前比较流行的公平调度器中,通过与原生的公平调度器比较,该算法有效地改善了小作业Reduce任务的饥饿问题,提高了作业的执行效率,并一定程度上提高了资源利用率。
2)深入分析了Reduce任务的数据本地性问题,并提出了一种延迟调度算法DSORT(Delay Scheduler Of Reduce Task),将延迟调度的思想应用到Reduce任务的数据本地性的优化上,并将DSORT的实现嵌入公平调度器中,最后,通过与原生的公平调度器比较,该算法大大提高了Reduce任务的数据本地性,减少了网络传输开销,缩短了作业的执行时间。
本文提出的算法有效地改善了Hadoop自带的Reduce任务调度算法,提高了作业的执行效率,优化了Reduce任务的数据本地性,降低了网络传输代价,并且算法具好扩展性,可移植到其他的调度器当中。