论文部分内容阅读
二十一世纪是信息的时代,信息传输伴随着数据量的增加,人们逐渐发现隐含在这些海量数据下的价值,于是用于分析处理海量数据的平台应运而生,Hadoop便是这其中最经典的海量数据处理框架。Hadoop需要构建一个庞大的数据节点集群,通过HDFS,Yarn,Map Reduce等组件实现海量数据的高效并行计算。然而近年来二氧化碳等温室气体的排放量逐年增加,导致了全球温室效应日益严重,与此同时大规模数据中心需要庞大的服务器集群作为支撑,以及大规模的制冷设备会消耗大量的能量以及企业成本开销,使得数据中心的节能减排问题越来越受到重视,基于这些原因使得Hadoop节能研究变得十分必要。本文通过对Hadoop自带的随机选择存储策略和磁盘轮询存储策略两种副本存储策略深入剖析,找出两种策略在能耗控制方面的缺陷,同时结合数据本地化的Hadoop任务调度原则,本文提出一种策略,即通过数据本地化原则将任务的调度问题转化为数据块副本的调度问题,创新的设计出一种基于存储驱动的Hadoop节能调度策略,同时构建出两层副本存储策略来控制集群负载均衡以及能量消耗,作为本文设计的节能调度策略的核心。本文设计的节能策略可以实现Hadoop集群任务的运行时间和总体能耗两个维度上的节能。该策略核心是两层副本存储策略。其中第一层副本存储策略根据数据节点磁盘的剩余容量,读写操作引用数实现两层算法,通过实现负载均衡提高集群整体性能,从而减少任务的运行时间。第二层副本存储策略主要考虑任务本身的种类特征以及任务所在数据节点的实时状态,通过对任务特征任务与数据节点的实时状态进行匹配,使任务被分配到能耗最少的数据节点上执行,从而达到减少集群能耗的目的。最后本文通过Xen Server平台搭建了具有32个数据节点的Hadoop集群环境,首先通过两组实验得出了本文设计的能量度量模型理论推导公式的近似参数,接下来将本文设计的节能调度策略与Hadoop自带的随机选择和磁盘轮询存储策略相对比,用三组对比实验证明了本文设计的节能调度策略在控制数据节点磁盘负载均衡方面具有较好地调节能力,可以相对减少Hadoop集群任务的总体运行时间,并且可以有效降低Hadoop集群的能量消耗。