基于遗传算法的Hadoop平台作业调度算法改进

来源 :东北大学 | 被引量 : 4次 | 上传用户:jacyChan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,大规模的数据也随之产生,传统的数据存储方式已经满足不了海量数据对于存储和处理的需求。云计算平台的出现,则为海量数据带来的问题给出了一个很好的解决方案。在众多云计算平台当中,本文选取了具有诸多优点的Hadoop云计算平台作为研究对象。Hadoop平台是一个开源的、可扩展、可靠性高的分布式计算框架。作业调度算法是Hadoop平台的关键技术之一,直接关系到Hadoop平台的整体性能和系统资源的利用情况。本文首先阐述了Hadoop的背景知识,详细分析了Hadoop技术,包括HDFS和MapReduce两大核心内容,并深入研究了作业调度流程及系统自带的三种调度算法:系统自带三种算法中,先进先出算法思想简单,不适用于多用户处理作业;计算能力调度算法和公平调度算法都需要合适的参数配置,对系统管理员压力很大。而且,三种算法在面对大量短作业时,考虑到作业切换的时间花销,处理速度并不如人意。然后,本文以减少处理大规模短作业的时间,同时兼顾长作业运行时间的要求为目的,改进现有的作业调度算法,从作业角度考虑,提出了把前若干个短作业分解的任务作为一个大队列,并根据遗传算法所提供的解空间来选择运行序列,避免了短作业之间频繁的切换需要的时间开销。同时为了自适应长作业,设置了任务队列长度限制来满足需求。最后搭建Hadoop平台,并通过在平台上运行作业的实验结果,说明了面对大量的短作业,本文提出的算法比起原有的作业调度算法,在总体运行时间上有了较大的缩短。证明了提出的算法是一种有效的作业调度算法。
其他文献
本文主要从说话人的切分和说话人的聚类两个方面讨论了视频中的说话人信息处理。在说话人切分方面,本文详细讨论了说话人切分的三个基本问题:候选切换点的选择、说话人特征提取
微观经济学认为需求与供给的关系是影响价格波动最重要的因素。过去对股票市场的讨论一般仅限于价格本身,却忽略了供求关系与价格之间的内在联系。而不管用什么理论和分析方法
随着生物医学领域中大量数据的产生,如何高效且有效的处理数据,并进行分类是一个值得研究的工作。在这样的背景下,本文对人体生理、临床医疗、流行病学、移动医疗等若干生物医学
通讯与信息技术的发展突飞猛进,数字信息呈爆炸式增长。在这个过程中,数据压缩技术在人们的工作与科研中扮演着必不可少的重要角色。在众多数据压缩技术中,矢量量化技术(VQ)
本文对多分类器综合模式识别的设计方法进行了研究。在多分类器综合模式识别系统的分类器集的设计上,本文分别提出了基于最小关联度和基于遗传算法的两种方法。前者以具有最小
Linux操作系统在当今服务器市场上占有相当大的份额,这说明它的网络协议栈的设计是成功和高质量的。同时,Linux作为一个开放源码的操作系统,它不仅继承了UNIX系统的大部分优
计算机技术在政府部门和企业部门中有着广泛的应用。该文在对工作流的相关标准以及现有应用需求分析的基础上,在 EMA 平台下,研究并实现了一个工作流引擎,并且将该工作流管理
从扩散过程的角度对时间序列进行建模能有效地挖掘潜在复杂系统的动力学结构。扩散过程由两部分所构成:漂移项和扩散项,因此用扩散过程对时间序列进行随机建模就是确定其漂移项
随着无线网络技术的发展及嵌入式系统的广泛应用,GSM/CDMA的应用已经不局限于语音通话。随着短消息平台的开放,CDMA/GSM正越来越多地广泛应用于监控、数据采集、GPS定位、消防
设计并建立良好的医疗保障机制是世界各国面临的难题。良好的医疗保障机制是面对政府、社会保险、病人群体等,在费用、服务质量、覆盖面等因素间保持均衡的机制。而如何寻求这