针对Hadoop集群的节能调度算法研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:xiazaikankan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算在企业中的广泛使用,拥有HDFS分布式文件系统和分布式计算模型MapReduce的Hadoop成为了众多IT企业的首选。在大型企业中,Hadoop分布式集群通常由成百上千个节点组成,如此庞大规模的集群在长时间的运行过程中会产生大量的能耗,增加了企业的成本。因此,在大规模集群中减少能耗,不仅从经济角度可以减少企业开支,同时也更加节能环保。传统的Hadoop集群在运行过程中并没有考虑节能问题,当Hadoop启动一段时间闲置时,所有节点长期处于工作状态,可能产生大量能耗。同时,Hadoop默认的调度算法效率较低,通常需要较长时间完成任务,较低的效率产生了较多的额外能耗。在以往的集群节能研究中,主要是通过在集群上增加额外硬件的方法减少能耗,适用性较差。已有的集群调度算法优化目标也多是负载均衡,没有考虑能耗问题,而且由于Hadoop架构的特殊性,大部分的调度算法无法在Hadoop上直接使用。本论文正是针对上述问题,以Hadoop集群的相关节能调度技术为主要的研究对象,深入分析了Hadoop集群特点和调度器的不足之处,对如何减少Hadoop集群能耗提出来解决方案。主要研究内容包括:首先,分析了Hadoop平台的结构和框架特征、Hadoop核心组件、编程模型;其次,针对Hadoop平台的整体架构,通过对集群进行能耗建模,提出了一种动态Hadoop节点节能管理方法,该方法在集群负载较低时,可以有效的动态休眠部分节点,减少集群整体能耗;接着,针对一批Hadoop任务,通过对最小化总完工时间的建模,提出了动态调整Hadoop资源的分配的HScheduler算法,减少多个任务的总完工时间以减少能耗;然后,针对Hadoop运行流程中常常会出现的数据倾斜问题,提出了Reduce端负载均衡(RLB)算法,通过减少任务的运行时间降低Hadoop集群的能耗;最后,搭建Hadoop实际数据测试环境,经过大量真实数据测试,验证了所提出的算法在Hadoop集群节能效果。
其他文献
Web Services和以CORBA为代表的分布式对象技术是当前两大研究和发展的热点。Web Services为用户提供了友好、方便的使用界面,并屏蔽异构的操作系统、网络和编程语言,而且屏蔽
本文研究了基于NiosⅡ的FPGA-CPU调试技术。论文研究了NiosⅡ嵌入式软核处理器的特性;实现了以NiosⅡ嵌入式处理器为核心的FPGA-CPU调试系统的软、硬件设计;对两种不同类型的FP
近年来,网络用户数目急剧增加,个人计算机性能不断提高,信息的共享和传播需求呈指数增长,这些因素促使P2P网络技术获得了长足的发展。网络流量一直是P2P网络技术中比较关键的
为了寻求新的收益来源,传统的运营商将目光转向潜力巨大的增值业务市场,增值业务市场进一步细化,竞争加剧。如何将增值业务资源整合起来形成一种新的共赢的商业模式成了运营
随着软件产业的迅速发展,软件维护成为软件产业面临的重要课题,理解并修改软件是软件维护的核心。程序代码的规模和复杂性使得程序理解成为软件维护中代价最高的部分,软件文
IP电话自从90年代诞生以来经历了高速的发展,对原有的电信语音业务和电信网络发展都带来了巨大的冲击,同时也起到了巨大的促进作用。可以说IP电话的产生和发展见证了电信网从
医院业务流程繁多,中间会产生海量的数据,如何处理、保存和利用这些数据,更好的为医疗事业和患者服务,提高自身的管理质量和经济效益,是摆在每所医院面前亟待解决的问题。过
作为类UNIX操作系统,Linux操作系统除了保持UNIX稳定、高效等优势之外,系统自身的功能更是不断发展、日益成熟。相对于其他操作系统而言,Linux可以按照需要修改源代码,并且具有支
制动系统是汽车设备中至关重要的运行设备,其运行状态直接关系到人员的安全,因此,在制动系统运行状态检测的基础上展开故障诊断就显得尤为必要。但是,由于制动系统中存在很多
随着通信技术和互联网技术的发展,政府机构和企业积聚了大量的业务数据,在这些不同类型的业务数据中,有一类很有特点的数据集合—交往数据集,比如通信记录、邮件收发记录、Web链