论文部分内容阅读
随着信息技术的不断发展和互联网的迅速普及,人们从信息接收者逐渐转变为信息的生产者,信息的爆炸式增长推动着互联网进入大数据时代。如今大数据已经成为一种重要的战略资源和新型决策方式,而云计算则为大数据分析与处理提供了强大的存储和计算能力。Hadoop是Apache软件基金会旗下的一个开源的分布式计算平台,它可以部署在普通的商业硬件上,具有高容错和低成本的特性。随着大数据和云计算的兴起,越来越多的公司开始利用Hadoop平台来提供云服务。高性能计算集群的日益增加和大规模部署带来了巨大的能源消耗,云服务提供商不仅需要满足用户在服务等级协议(SLA)中提出的需求,还要在保证服务质量的前提下尽可能地降低资源成本。为了克服Hadoop 1.0在可靠性、可扩展性和资源利用率等方面存在的局限性,Hadoop 2.0将其资源管理功能抽象成了一个独立的通用系统YARN。YARN能够同时支持多种计算框架(如MapReduce、Spark、Storm等),并对集群系统中的资源进行统一管理和调度,这种共享集群的模式具有资源利用率高、运维成本低以及数据共享的优点。作为当前最流行的集群资源管理系统,YARN在迎来发展机遇的同时仍然面临着两个严峻的挑战:一是根据每个应用程序的SLA中指定的截止时间自动调整和控制资源分配,二是基于截止时间约束减少整个集群系统的能源消耗。因此,Hadoop YARN在云计算环境下的资源分配和节能调度已经成为目前亟待研究和解决的问题。针对上述问题和挑战,本文提出了一种基于SLA感知的Hadoop YARN节能调度策略。该策略通过对多租户云计算环境下的MapReduce程序进行预测分析来获得各个阶段的性能指标,根据这些性能指标和SLA中指定的截止时间可以确定程序两阶段任务的并行度;然后利用SLA感知资源调度器为每个应用程序动态地分配资源,从而确保任务并行度在运行过程中不会发生变化;最后结合动态电压频率调整(DVFS)技术实现任务调度以达到节能的目的。综上所述,本文提出的节能调度策略能够在多租户云计算环境下合理地分配资源,同时在保证截止时间的前提下最大限度地降低云计算平台的能耗。网络带宽一直是制约云计算发展的瓶颈之一,基于SLA感知的Hadoop YARN节能调度策略充分利用了Hadoop数据本地化的特性来减少网络通信,并利用数据传输产生的松弛时间实现任务节能调度。此外,本文使用了CloudSim云计算仿真平台来评估资源分配算法和节能调度算法的性能。实验结果表明,与现有的YARN资源调度方案相比,本文提出的节能调度策略能够做到对资源的高效利用,并在保证应用程序截止时间的前提下有效地减少资源成本和能源消耗。