论文部分内容阅读
随着互联网的快速发展,大数据时代的到来,云计算技术得到了空前的发展,Hadoop作为云计算平台的核心技术,也得到了广泛的应用和发展。Hadoop平台通过互联网将大量计算机互联成一个集群,用户可以通过客户端向集群提交作业来完成实际的应用需求。资源调度器作为Hadoop平台的核心组件,采用特定的调度算法对作业进行分配与调度执行,调度算法的优劣直接影响到整个集群的性能。因此,对于Hadoop作业调度算法的研究变得非常重要。Hadoop MapReduce作为一个并行计算的框架,越来越多的应用通过此框架对数据进行分布式处理。在map/reduce程序执行过程中,由于某些reduce节点被分配到的数据量较大,导致节点负载不均衡,形成了数据倾斜现象,会直接影响作业整体完成时间,因此解决数据倾斜问题也是现阶段研究的重点。本文对云计算的资源调度算法以及数据倾斜问题进行了下面几项研究:(1)结合Hadoop默认的三种资源调度算法的源码以及模型,进行研究与分析,总结出它们的优缺点,并在其基础上提出了本文的云计算资源调度算法。(2)针对MapReduce编程模型下的数据倾斜现象,本文从不考虑网络带宽和数据在节点间迁移耗时等因素的理想环境和真实生产环境中出发,提出了基于理想环境下负载均衡的调度算法MR-LB以及基于负载反馈的调度算法MR-LBF。(3)提出了一种改进后的混合优化的GA-PSO算法。该算法以传统的粒子群算法和遗传算法为基础,通过分析云计算中资源调度的流程,将该流程模型化作为遗传算法中的适应度函数中的子项,并根据实际应用场景采用了适合的算子,最后采用串行式混合优化的方式应用到云计算资源调度策略中。最后通过不同的实验平台,虚拟机搭建集群服务器以及CloudSim云计算仿真实验平台,首先进行了数据倾斜解决方案进行了实验的分析与验证,实验结果表明在很大程度上能够降低数据倾斜对系统的影响。接下来是将混合优化算法模型与Hadoop内建的调度算法做比对分析,本文的提出的资源调度算法较传统的调度算法在资源利用率和集群作业整体完成时间上都有了进一步的提升,说明该资源调度算法具备一定的可行性和高效性。