论文部分内容阅读
云计算在商业和科学研究上的价值已渐渐被社会认可。它可以在搜索引擎、互联网应用技术、大规模数据计算等方面发挥出巨大的能量。Hadoop技术作为云计算技术的开源实现,对云计算技术的发展起到了十分重要的作用。现在大多数的企业和科学研究采用了Hadoop作为云计算平台。Hadoop凭借它简单的并行编程模型,庞大的数据存储能力和高效的计算能力为用户提供了良好的客户体验。但是,由于Hadoop的发展时间比较短暂,系统中仍然有很多地方可以去完善和改进,才能更加充分地发挥其系统性能。因此对Hadoop系统性能的研究工作是必要并有意义的。系统性能参数和任务级调度算法对Hadoop系统工作性能起着重要的影响,其中系统性能参数关系到集群工作各阶段对系统资源的使用情况;任务级调度算法是Hadoop工作时任务分配的关键。参数值的确定与任务分配没有统一的模型,是比较复杂的工作,目前对它们的研究还处于发展阶段。因而我们从这两方面对Hadoop系统性能的优化进行了研究。本文着重对集群节点的执行能力进行了分析与研究。为使Hadoop集群系统能够应对多变的任务及集群节点自身的差异对系统工作性能带来的影响,设计TaskConfigure服务器及构建了Hadoop集群参数信息系统对集群参数进行自动调优;并针对当前Hadoop集群默认运行的任务级调度算法可能存在的负载分布不均的状况,提出了一种基于节点能力的任务自适应分配方法。其中,参数信息系统的实现,采用节点资源利用效率生成集群系统参数的优化配置值,再按节点和任务的分类为各类分配不同的配置参数值,这样可保证节点在恰当的配置参数下执行任务;同时,为了集群在执行任务时各工作节点能够保持负载相对均衡,以节点性能、任务特征、节点失效率等计算节点权值比例参数作为节点任务量调度分配的依据,并判断节点自身的负载状态,根据负载状态值自适应地调整运行的任务量。通过实验表明,集群总的任务完成时间明显地缩减,各节点的负载更加均衡,节点资源的利用更为合理,并且使集群具有良好的稳定性和扩展性。