论文部分内容阅读
副本管理策略是云计算环境下分布式文件系统的重要研究方向之一。合理的副本因子以及副本放置策略不仅可以为用户提供更加可靠的数据访问服务,同时能够提高系统的负载均衡和云计算平台的计算效率。论文首先对Hadoop平台下的分布式文件系统HDFS进行了研究,详细介绍了HDFS的副本管理策略,分析了不同副本管理策略的优缺点,同时对HDFS数据块均衡策略进行了详细分析。其次,分析了HDFS默认数据块均衡策略的局限性,并在此基础上提出了适用于异构环境的数据块负载均衡算法,该算法基于各个节点的性能及存储空间等参数计算得出各节点的理论空间利用率,并将用户输入的阈值转化为各节点的参数化阈值,从而实现了在异构环境下对数据分布的负载均衡。论文修改了Hadoop源码并重新编译部署,搭建测试环境进行实验。实验结果表明该算法在异构环境下,能够让集群的数据分布达到更加均衡的状态,一定程度上提高了集群的整体性能。然后,论文对副本管理策略中的副本因子决策算法进行了研究。指出当前文件热度可能存在较大差异,对热点数据的访问将影响作业的执行效率。而现有副本因子调整策略基于当前热度,不仅具有滞后性,亦会受到突发访问波动的影响,因此副本因子决策应当以文件的未来热度为依据。基于此,建立了以灰色预测为基础的预测模型,并利用马尔科夫模型修正突发访问造成的预测偏差,然后基于文件的预测热度建立有限通道服务模型,决策出符合用户需求的副本因子。最后,对副本因子调整过程中新增副本的放置策略进行了优化研究。在副本因子动态调整过程中,目前多数副本放置算法优化目标单一,而传统多目标优化方法存在权值系数的选取依赖专家经验、优化结果受该系数影响较大、建模过程复杂等缺陷。在此研究基础上,论文提出了一个基于多目标优化的新增副本放置策略。首先建立网络流量、节点性能负载均衡度、存储空间均衡度等多个优化目标;然后引入多目标优化算法NSGA-II进行分析求解;最后提出一种基于解空间中个体密度的最优目标选择策略,从非支配解集中决策出最终副本放置方案。论文首先进行了仿真实验,仿真结果表明该算法具有较好的收敛性,验证了算法的有效性;然后在实际集群环境中修改了Hadoop源码,对本文提出的副本因子决策算法以及副本放置策略进行了实验分析。实验结果表明:改进后的算法可有效减少热点数据的访问冲突,提高系统的吞吐量,并有效减少副本移动过程中的网络负载,在整体性能上具有更好的优化效果。