基于Hadoop的作业调度算法研究与改进

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:zhangxi0922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,大数据时代的到来,云计算技术得到了空前的发展,Hadoop作为云计算平台的核心技术,也得到了广泛的应用和发展。Hadoop平台通过互联网将大量计算机互联成一个集群,用户可以通过客户端向集群提交作业来完成实际的应用需求。资源调度器作为Hadoop平台的核心组件,采用特定的调度算法对作业进行分配与调度执行,调度算法的优劣直接影响到整个集群的性能。因此,对于Hadoop作业调度算法的研究变得非常重要。Hadoop MapReduce作为一个并行计算的框架,越来越多的应用通过此框架对数据进行分布式处理。在map/reduce程序执行过程中,由于某些reduce节点被分配到的数据量较大,导致节点负载不均衡,形成了数据倾斜现象,会直接影响作业整体完成时间,因此解决数据倾斜问题也是现阶段研究的重点。本文对云计算的资源调度算法以及数据倾斜问题进行了下面几项研究:(1)结合Hadoop默认的三种资源调度算法的源码以及模型,进行研究与分析,总结出它们的优缺点,并在其基础上提出了本文的云计算资源调度算法。(2)针对MapReduce编程模型下的数据倾斜现象,本文从不考虑网络带宽和数据在节点间迁移耗时等因素的理想环境和真实生产环境中出发,提出了基于理想环境下负载均衡的调度算法MR-LB以及基于负载反馈的调度算法MR-LBF。(3)提出了一种改进后的混合优化的GA-PSO算法。该算法以传统的粒子群算法和遗传算法为基础,通过分析云计算中资源调度的流程,将该流程模型化作为遗传算法中的适应度函数中的子项,并根据实际应用场景采用了适合的算子,最后采用串行式混合优化的方式应用到云计算资源调度策略中。最后通过不同的实验平台,虚拟机搭建集群服务器以及CloudSim云计算仿真实验平台,首先进行了数据倾斜解决方案进行了实验的分析与验证,实验结果表明在很大程度上能够降低数据倾斜对系统的影响。接下来是将混合优化算法模型与Hadoop内建的调度算法做比对分析,本文的提出的资源调度算法较传统的调度算法在资源利用率和集群作业整体完成时间上都有了进一步的提升,说明该资源调度算法具备一定的可行性和高效性。
其他文献
美国宪法中奠基性的"马伯里诉麦迪逊"案一般被当作确立司法审查制度的案例,即法院拥有审查国会立法是否违宪的权力。本文试图通过对于该案判词全文的重新解读,展现该案件更为
本文运用农户行为理论、行为决策与理论决策等基础理论,通过制定调查问卷实地调查,分析了在家庭联产承包责任制30年不变的情况下,农户的土地利用行为,主要包括生产决策行为、
开发区是政府期望可以带动本地区(国家)经济发展的一种特殊经济区。改革开放以来,随着我国经济社会的持续快速发展,开发区的规模不断壮大,许多开发区突破原定规划范围,各类建
中国农村改革是由政府主导的进程,近年来为改善乡村治理的状况,中国政府对农村保持了密集的政策输入,但很多政策执行效果差强人意。国家的方针、政策难以有效地渗透进入社会,这反
习近平在纪念五四运动100周年大会上深情寄语新时代青年,同时也对各级党委和政府、各级领导干部以及全社会提出了走近倾听、关心关爱和教育引导青年的明确要求。高校辅导员作
行政事业单位在实际运行的过程中能够在较大程度上保障其资产的可靠与安全性。因此,实施会计监督的相关工作对行政单位整体的发展与运行具有重要的意义与作用,本文在研究的过
水资源是一国经济社会发展不可替代的战略资源,合理利用水资源,积极探索提高水资源利用效率的形式是当前和今后的重要任务。2011年1月,中央1号文件正式发布,水利发展问题成为
在过去的一年,在年度党风廉政建设考核中,永济市将“科级干部民意调查”纳入重点,通过走访和电话访两种方式,在科级干部所居社区、网格、家庭中进一步了解其“八小时外”的生
期刊
21世纪是生物产业的时代,目前生物产业已成为国家之间竞争的焦点,对我国解决所面临的人口、健康、粮食、能源、环境等主要问题具有重大战略意义。而处于生物产业链中的生物试剂