论文部分内容阅读
随着互联网技术的不断发展,以及网络应用范围的不断扩大,数据已经成为了企业的发展核心。很多大型IT企业都建立了自己的大数据中心,同时企业的发展也愈来愈依赖于数据,这一事实表明大数据时代已经到来!而Hadoop等云计算平台正是随着大数据时代的到来而出现的。在一个云计算平台中,资源和作业调度策略是其核心,它对于整个系统计算资源的分配及作业的执行都起着至关重要的作用。因此,云计算环境下调度算法的研究有着重要意义。由于云计算平台的调度问题已经由作业调度逐渐转向资源调度,所以本文兼顾了Hadoop平台下作业调度和资源调度问题,重点介绍了基于Hadoop平台下现有的几种作业调度算法和资源调度算法,包括先进先出(FIFO)调度算法、基于负载均衡的调度算法、基于资源感知的调度算法和主资源公平(DRF)调度算法,分析了这些调度算法的主要思想和优缺点。针对Hadoop平台作业调度问题,根据作业的负载类型,对基于负载均衡和资源感知的调度算法作出了改进,提出了一种基于工作负载感知(WLWare)的调度算法。该算法根据集群的节点信息,将作业进行了分类,通过作业负载类型和节点负载状况,算法将作业与节点进行匹配,提高了系统的资源利用率。同时在Hadoop平台资源调度问题上,针对Hadoop 2.0中主资源公平(DRF)调度算法未考虑资源请求的不可分割性和资源的动态使用情况这一问题,基于主资源公平(DRF)调度算法提出了一种基于资源需求的动态多资源调度算法(DEDRF),该算法通过对主资源公平(DRF)算法引入新的资源分配方法和资源状态反馈因子,充分考虑作业资源请求的不可分割性和系统资源的动态使用情况,对系统节点进行正向和反向激励,提高了资源的利用率和适应性。为了验证算法的性能,在Hadoop实验集群以及Cloudsim仿真平台上对算法的性能进行了验证和评估。实验结果表明本文提出的两种改进的调度算法能够很好的改善现有算法的性能。