Hadoop平台的作业调度算法研究与改进

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:bobo20092009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算技术的发展成熟,云计算为企业提供了一种大数据的解决方案。Hadoop是Apache组织下的一种开源分布式云计算框架的实现,由于其具有高可靠性、高扩展性以及高容错性等优点,被诸多企业广泛地用于大数据的处理。MapReduce是Hadoop对数据进行分布式处理的核心组件,其作业调度算法决定了MapReduce的性能,影响到整个Hadoop系统的性能。目前,现有的Hadoop作业调度算法中Reduce任务调度算法过于简单,制约了Hadoop系统性能的提升。一方面,存在小作业Reduce任务的饥饿以及较低的资源利用率的问题,另一方面,没有考虑到Reduce任务的数据本地性的优化。
  本文针对Hadoop平台作业调度算法展开了研究,并对其Reduce任务调度算法进行了优化。本文的主要工作如下:
  1)深入分析了小作业Reduce任务的饥饿以及较低的资源利用率的问题,提出了一种任务时间估计模型,并基于此模型提出了一种改进算法SBOTM(Scheduler Based On Time Model),将SBOTM算法的实现嵌入到当前比较流行的公平调度器中,通过与原生的公平调度器比较,该算法有效地改善了小作业Reduce任务的饥饿问题,提高了作业的执行效率,并一定程度上提高了资源利用率。
  2)深入分析了Reduce任务的数据本地性问题,并提出了一种延迟调度算法DSORT(Delay Scheduler Of Reduce Task),将延迟调度的思想应用到Reduce任务的数据本地性的优化上,并将DSORT的实现嵌入公平调度器中,最后,通过与原生的公平调度器比较,该算法大大提高了Reduce任务的数据本地性,减少了网络传输开销,缩短了作业的执行时间。
  本文提出的算法有效地改善了Hadoop自带的Reduce任务调度算法,提高了作业的执行效率,优化了Reduce任务的数据本地性,降低了网络传输代价,并且算法具好扩展性,可移植到其他的调度器当中。
其他文献
红色资源是中国共产党领导全国各族人民,在新民主主义革命时期、社会主义革命和建设时期以及改革开放以来的新时期,在建树丰功伟绩的实践中形成的,可以为我们今天所开发利用的历史遗存及其承载的革命历史、革命事迹和革命精神。红色资源作为一种优质的教育资源,对于高校开展大学生思想政治教育工作具有重要价值。因此,如何将红色资源有效地运用到高校大学生思想政治教育工作中,充分发挥其独特优势和重要价值,帮助大学生培养高
学位