Hadoop平台下调度算法及其改进策略研究

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:tcy789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会随着信息技术发展,互联网的普及,每天都有大量与人们活动相关的数据产生。而数据产生的同时,如何能够有效的存储大量数据并对数据进行有效分析,成为了人们迫切需要解决的问题。与此同时,由于数据量的激增,诸如数据挖掘以及网页索引等数据敏感应用需要处理不断增长的从几GB到几TB甚至PB的数据集。针对上述问题,Google提出了 MapReduce的编程模型。MapReduce编程模型的主要思想是用户只需要表述想要执行的计算,而不必关心并行计算、容错、数据分布以及负载均衡等细节。Hadoop是MapReduce模型的开源实现之一。Hadoop框架包含两个主要部分:HDFS(Hadoop Distributed File System)和 MapReduce,HDFS用于海量数据的存储,MapReduce用于对海量数据进行研究分析。Hadoop因其高可靠性、高扩展性、高容错性以及低廉的成本,迅速成为了流行的大数据处理平台之一。本文通过文献调研,针对Hadoop分布式计算平台进行了研究。首先从Hadoop平台的产生入手,论述了 Hadoop平台产生的背景及意义,并且对Hadoop平台架构及关键技术进行了研究。其次,文中研究了 Hadoop平台现有的三种调度算法,即FIFO调度、计算能力调度(Capacity Scheduler)以及公平份额调度(Fair Scheduler),其中主要分析了各个调度算法产生意义、工作原理以及不足。然后本文基于现有三种调度算法的不足之处,提出了动态作业匹配调度算法(Dynamic Matching Based on Memory Scheduler,DMBMScheduler),新的算法在作业调度时考虑了内存数据局部性,并在作业调度时依据实时匹配原则来进行作业分配。最后对算法进行实现以及实验测试,实验结果表明我们的算法成功达到了预期的目标,缩短了作业执行时间以及作业响应时间,解决了现有算法的不足,并提高了 Hadoop平台的整体性能。
其他文献
手性是自然界中普遍存在的一种特殊性质。苯丙胺是手性分子,有一对对映异构体,分别为R型苯丙胺(RAT)和S型苯丙胺(SAT)。研究苯丙胺手性分子与多巴胺第三受体D3R蛋白的相互作
石墨由于其特殊结构,具有优异的性能,其制品可广泛应用于国防科工、航空航天、新能源、节能环保、信息技术、电动汽车、高端装备等多个行业,是国家战略性新兴产业发展所不可
农业在我国是第一产业,在国家经济体制中占据重要一环,支撑着国家经济的发展。水稻又是农业生产中生产量最大的作物,加工水稻生产的大米在其外观品质的影响因素主要为碎米率、垩白度、黄米率,这些也是我国稻米栽种,稻米加工的重要指标,目前市场上针对于大米的各项检测方法大多由人力检测,劳动成本过高,远没有机械化生产所来的高效,其结果也不具备客观性和再实现性,致使包含大量垩白、碎粒的大米流向市场,对广大民众的健康
禾谷镰刀菌是引发小麦、大麦等主要谷类作物赤霉病的一种重要植物病原菌。赤霉病的爆发,直接造成粮食严重减产和籽粒品质下降,同时,感病籽粒中含有真菌毒素,给食品安全和人畜
随着近些年来网络上Web服务数量的爆发增长,如何从海量的服务里匹配到最佳的服务从而达到Web服务复用和Web服务组合的目的,成为了业界研究的热点。传统的解决方案因为缺乏语
中国加入WTO以后,随着中国银行业全面开放,国内银行为应对愈发激烈的市场竞争,提升运营效能,全面开始进行零售网点转型。由此催生了一批专门为银行业务转型提供咨询和培训的
随着信息技术的发展,人们日常生活中的社交行为产生了越来越多的数据,通过对这些数据的分析可以了解人们的社交生活,因此,社交圈分析技术正逐渐应用到越来越多的领域。目前较
贝沙罗汀(Bexarotene)是一种新型的合成维甲酸类似物,能选择性激活维甲酸X受体,具有广谱的体外抗肿瘤活性。它可以诱导非小细胞肺癌、乳腺癌细胞和胰腺癌细胞的凋亡。但是,贝
随着我国经济结构改革的不断深入,以中小企业为代表的民营经济逐渐成为国民经济的重要组成部分。而随着2008年美国次贷危机引发的金融海啸波及全世界,全球经济遭遇重创,中国
强激光场下原子或分子电离动力学的研究是近年来物理研究的热点领域之一。原子或分子的非次序双电离过程复杂且深刻,对双电离过程中呈现出的相关现象的研究及结果也较多。在