基于Hadoop作业内计算任务调度优化的研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:cctv2009_33894352
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科学技术的快速发展,互联网与社会各个方面的结合越来越紧密。互联网所产生的信息数据也以指数级的速度飞速增长。面对海量的信息数据,传统的计算模式已经显得力不从心。云计算作为传统计算模式与网络技术融合的产物,能够将计算分布在大量的机器上,从而高效的对海量数据进行处理。Hadoop作为一个能够高效的处理大规模数据集的分布式计算框架,现已被越来越多的机构作为基础计算框架来构建云计算平台。如何提升其执行效率是业界的一个热门研究方向,调度问题作为影响Hadoop执行效率的一个关键因素,发现其不足之处并加以改进是非常具有意义的。通过对现有的改进后的Hadoop调度算法进行调研可以发现,大多数优化算法集中在如何对多个作业进行合理调度也即作业间的调度研究,而对作业内部的计算任务调度研究甚少。此外,对异构集群节点间的计算能力差异性也没有充分考虑,或只是根据机器配置来设置一个理论值,与现实存在脱节。本文主要针对Hadoop作业内的计算任务调度问题进行研究,主要工作包括:一、对课题的背景知识以及调度过程中涉及到的Hadoop组件进行了介绍。分析了Hadoop默认使用的任务调度算法所存在的不足以及任务调度过程中有关的类及方法的作用。在借鉴了现阶段一些改进后调度算法的主要思想、设计思路、优点以及不足的基础上,提出了基于Hdoop作业内的数据本地化任务调度算法。该算法能够根据节点的真实计算性能以及当前节点所存储的还未被处理的数据块数目来计算出该节点的数据本地化饱和程度并依此进行计算任务调度。在传统的任务调度过程中,节点所存储的数据块没有做区分,每次调度时都是随机选取数据块。本文引入了数据块标记值这个概念,在调度过程中对每个数据块进行标记,并按标记值大小进行调度。本文提出的算法可以提高作业内计算任务调度效率,能够结合其它多作业调度算法进一步提高Hadoop平台执行效率,并且在异构集群下也能很好工作。二、搭建了一个异构的Hadoop集群作为实验环境,对上述优化后的任务调度算法以及默认的任务调度算法进行了实验验证,并对实验结果进行比较。结果表明改进后的任务调度算法能够提升数据本地化的计算任务数量、从而降低网络带宽占用,更加合理地利用系统资源,减少了整个作业的执行时间。
其他文献
近年来,人们面对海量数据很难有效地分辨出哪些是自己真正需要的信息。随着信息量的不断增大,信息的利用率反而降低,这就是信息过载现象。随着大量网络信息的数字化,搜索引擎
多智能体系统中的任务规划是近年来研究的热点之一。机器人救援仿真系统是一个典型的异构多智能体系统,为在动态复杂场景下快速、高效规划救援任务,提高救援效率,将灾难损失
特征交互问题源于电信领域。电信系统为不断满足用户需求而不断开发和配置新的增值服务的同时,由于需求冲突、资源竞争、基础设施不足等原因可能导致这些增值服务之间发生非
随着因特网的普及和迅速发展,电子商务的快速发展也得到研究者们更多的关注,期望能够在这种崭新的商务形式下,利用它的诸多优点,取得更多的经济效益。Web服务器以日志的方式
现在,软件已经渗透到我们日常生活中,成为我们生活的一部分。几乎每种行业,如汽车、飞机、通讯、金融、制药等等都需要软件来维持正常的工作。正因为这种日益增长的依赖性,一旦软
近年来,无标记点运动捕获技术已经成为计算机视觉与计算机图形学研究领域的一大热点,已经广泛的应用在计算机动画,游戏,电影特技等领域。而基于图像序列可视外壳建模技术实现
操作系统的正确性是计算机系统可靠性、安全性以及计算机系统提供可信计算的重要基础,但是由于操作系统内核复杂、规模庞大,目前的软件正确性验证技术在发现操作系统错误方面
随着医学图像临床应用研究的深入,基于人体结构断层图像的三维建模技术成为研究热点。目前医学图像三维建模主要有体绘制和面绘制两类方法,由于面绘制可以采用现有的图形硬件
从视频序列中提取前景目标是计算机视觉领域的一项关键技术,也一直是计算机视觉领域中的一个热门研究课题。视频对象分割得到的结果可以用于诸多基于对象的视频应用,例如基于
人脸表情识别是人工智能与人机交互领域中的一个重要课题,目的是实现计算机自动识别人的表情,进而分析人的情感与心理。这将进一步增强人机交互的友好性与智能性,因此有着很