论文部分内容阅读
云计算是2007年新兴提出的计算模式,它是分布式计算、并行计算和网格计算的发展,云计算的提出是对互联网的一个冲击,它改变了网络的服务模式,实现了计算能力的商品化,还是下一代网络与运用发展的新技术,因此云计算模式对于IT技术的发展有着较强的实际意义和商用价值。通过广泛的调研,本文首先简要介绍了云计算的定义,特点和应用场景;然后对云计算的最广泛运用的开源平台Hadoop的关键技术-MapReduce编程模型和分布式文件系统HDFS做了深入的研究。通过对Hadoop平台下的作业调度技术进行分析,在详细研究了现有三种作业调度算法-先入先出调度算法(FIFO)、公平份额调度算法(Fair Scheduler)和计算能力调度算法(Capacity Scheduler)的设计思路和不足的基础上,提出了一种新的Hadoop作业调度算法,文中命名为基于优先权的自适应调度算法(Adaptive Scheduler Algorithm Based on Priority,以下简称ASBP)。本文提出的算法根据历史信息调整JobTtacker上的可执行队列的长度,以达到动态调整各节点上的负载,自适应的管理系统的负载平衡;利用优先权为不同的作业分配或多或少的系统资源和执行时间来实现不同类型作业的差别服务;对Hadoop原有的推测式执行算法进行了改进,用任务的最长剩余时间代替传统的任务进度值来选择落后任务,提高了落后者任务的命中率和控制了备份任务的数量,从而减小了任务响应时间和防止了任务抖动;考虑到Hadoop平台个节点间的异构性,把掉队者节点再细分为Map慢节点和Reduce节点,对提高系统的整体响应性能和系统资源的利用率具有重要意义。本文最后对我们的算法进行编程实现和实验验证,实验结果表明我们的算法成功的实现了预期的目标,具有更短的响应时间和良好的负载均衡能力,解决了现有算法的不足,并且提高了Hadoop系统的整体性能。