大规模数据处理系统中MapReduce任务划分与调度关键技术研究

被引量 : 0次 | 上传用户：wangctm

【摘要】

：

近年来,随着信息时代的飞速发展,海量的数据被产生和存储。特别是在大数据时代的背景下,人们对于海量数据的挖掘和运用正在成为重要的生产因素。在这种迫切需求下,利用大规模

【作者】

：

郑思

【发表日期】

：

2014年期

【关键词】

：

大规模数据处理大数据并行计算 MapReduce 分布式处理预测与调度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着信息时代的飞速发展,海量的数据被产生和存储。特别是在大数据时代的背景下,人们对于海量数据的挖掘和运用正在成为重要的生产因素。在这种迫切需求下,利用大规模数据系统高效分析和处理海量数据成为了这一领域的关键问题。其中,以Map Reduce为代表的海量数据分析软件架构扮演着越来越重要的角色。Map Reduce软件架构充分利用分布式系统特点,将问题划分为若干子问题并行求解成为海量数据处理的主流方法。因此,子任务的合理划分和协同调度是当前学术界和工业界研究大规模数据处理技术的核心目标。已有的Map Reduce研究成果主要集中于任务的划分算法,系统容错机制,执行时间预测,作业与任务的调度等方面。随着系统规模和数据规模的不断增大,传统的任务划分与调度方法已经不能满足海量数据处理的需求。大规模数据处理系统不仅对系统的容错性提出了更高的要求,海量数据本身的数据特性也将深刻影响Map Reduce中的任务划分与调度问题。因此当前利用Map Reduce分析处理海量数据暴露出许多难以克服的问题:第一,任务执行时间难以预测导致调度策略难以优化。目前Map Reduce中已有的多数工作主要采用模型的方法来预测任务的精确执行时间,并以此作为调度算法的依据。但是在大规模系统中采用复杂模型方法往往开销过大,简单模型预测又不准确。第二,基于精确时间调度算法与实际执行时间存在误差。已有的多数调度算法研究都是基于精确执行时间为基础。然而,任务的执行时间往往带有一定的不确定性,随着系统规模和复杂度的增加,这种不准确性越来越严重,成为导致系统性能不能充分发挥的主要瓶颈。第三,无法处理数据分布特性对调度带来的影响。现有的任务划分和调度算法不考虑数据本身特点对任务执行时间的影响,而在实际应用中,数据的部分特征,比如数据倾斜等,会严重造成务之间工作量的不合理划分,部分工作量较重的任务执行时间会拖长整个作业的执行时间。第四,为充分考虑数据局部性问题。目前对于Reduce任务的数据局部性关注较少。不合理的Reduce任务调度往往不仅会增加网络中的数据传输量,还有可能造成拥塞现象加大了数据传输过程的难度。针对上述技术瓶颈,本文结合大数据和处理系统本身特征,系统地研究了大规模数据处理系统中Map Reduce任务划分与调度关键技术,从以下几个方面展开研究:针对现有基于模型的预测算法精确度差、复杂度高,不适于大规模数据处理系统实际使用的问题,本文深入研究了Map Reduce中作业及任务的执行特点,并提出了一种基于异构环境非精确预测的任务风险调度Risk I,Risk I首先设计了一种基于任务属性和环境特征的相似度算法,在此基础上设计了基于历史相似度匹配的执行时间预测算法。最后特别针对预测结果是带有概率分布的时间段和Map Reduce中任务单位时间收益不统一这些特征,Risk I利用风险决策理论实现了非精确时间的调度算法。该方法比LATE提高了46%的系统吞吐率,极力避免了执行时间不确定性对系统性能带来的损失。针对数据分布特征影响系统性能的问题,本文首先发现传统的前瞻备份执行方法不能有效缩短工作量较重任务的执行时间,而这类任务往往是由于数据倾斜所造成,并成为拖慢作业执行响应时间的直接原因。在此发现的基础上,本文提出了基于数据特征检测的前瞻执行Skew Seize。通过对网络传输数据量的监测以及特征分析,Skew Seize分析了造成最慢任务的原因,特别设计了数据倾斜造成的最慢任务识别算法。通过对任务资源竞争关系分析,Skew Seize识别出与其具有竞争关系的非最慢任务,并通过调度算法选择最适合被迁移的任务和迁移到的节点,并证明其不会造成新的最慢任务。实验结果表明Skew Seize能够有效的将作业的执行时间缩短14%并且有效的避免了资源浪费。针对被动处理最慢任务会带来额外调度开销和资源浪费问题,本文通过对真实数据的特征分析,发现了数据倾斜往往在具有动态性的同时在某一范围内也具有一定的稳定性。利用此特征,本文提出了基于数据倾斜感知的动态任务划分Skew Control。Skew Control通过分析数据特征,首先实现了动态预测数据分布算法。利用此预测,系统能够在缺少先验知识的情况下动态主动地将任务的工作量更合理的划分和调度到不同的异构节点。最后,Skew Control设计了执行结果的反馈机制和调度优化算法,对可能变化的计算环境,不断地精化和细化调整任务之间的划分,从而使得调度效果不断优化。实验表明,与LATE算法和Skew Tune算法相比,Skew Control能够将系统执行效率分别提高了23.8%和17%。针对数据局部性制约系统性能的问题,本文首先分析了Map Reduce系统中不同Reduce任务调度方式对Shuffle阶段数据传输可能带来的变化以及对最终执行时间所带来的影响,分析得到了系统中节点内部,机柜内部和机柜之间不同数据传输带宽的特征。基于以上分析,本文提出了基于数据局部化的Reduce任务调度Jinking,Jinking主要实现了最大化机柜内部网络流量和最大化节点内部网络流量的贪心调度算法。特别针对了在中间数据不可知或者部分可知的情况下,又提出了通过延迟调度和立即次优调度两种算法,来降低网络中数据的传输,主动地避免拥塞。综上所述,本文基于Map Reduce,针对利用大规模数据系统分析处理海量数据技术提出了有效的解决方案,并通过在真实数据集和系统上进行实验验证了所提算法的有效性,对于大规模数据系统分析处理海量数据技术具有一定的理论意义和应用价值。

其他文献

基于PLC、MCGS组态软件的高压电机试验系统

介绍了基于可编程控制器PLC、MCGS组态软件的高压电动机智能试验系统的原理、组成和设计过程。试验系统由控制、测量、数据采集和组态等子系统组成。控制子系统由上位机（工业

期刊

高压电机MCGSPLC智能控制自动测试

铁路运输商品汽车发展策略探讨

随着国民经济的发展和人们生活水平的提高,使商品汽车的产销量得到快速增长。为满足商品汽车运输的需要,采用铁路运输,可以为消费者提供快捷、便利和满意的服务。此文在阐述

期刊

铁路运输商品汽车发展策略

基于多容水箱系统数学模型的研究

本文以“多容水箱实验系统”为研究对象,在实验室中做了大量的实验、分析和研究等。实验室的多容水箱系统可搭建单容水箱系统、双容水箱系统和三容水箱系统等。传统的机理建

学位

多容水箱系统辨识数学建模遗传算法仿真

智能航空发动机性能退化缓解控制技术研究

智能发动机控制技术是未来航空发动机控制系统的发展方向之一,作为智能发动机控制技术分支的性能退化缓解控制技术受到了研究人员的广泛关注。本文从智能发动机的角度开展了

学位

航空发动机性能退化H2/H∞控制传感器故障气路部件故障故障诊断推力估计极端学习机支持向量机

正确理解阅读教学中的“对话”

<正>语文课程标准在"教学建议"部分明确提出:"阅读教学是学生、教师、文本之间对话的过程。"在新课标的积极推动下,越来越多的语文教师在自己的课堂里广泛实践着对话教学。对

期刊

阅读教学对话教学文本对话

法国文学教学情况及其影响研究

法国文学在中国的接受由来已久,从十九世纪末开始就被国人引进、翻译,并成为众多文学学者研究的对象。然而,作为法语专业教学中不可分割的一部分,法国文学在其中的重要性却一

学位

法国文学教育文学作品中国大学生文学影响

正交异性板闭口钢箱梁相关问题探讨

正交异性板闭口钢箱梁在国内大跨径桥梁中得到大量应用,其优势相当明显,但其应用效果和存在的问题却很少引起人们的关注。根据多年的实际经验,对正交异性板闭口钢箱梁存在的

期刊

正交异性板钢箱梁问题探讨

痕量元素在中国北方主要海产贝类和黄渤海表层沉积物中的含量及其环境指示意义

海岸带是一个陆地和水生生态系统之间相互作用的地理空间,是世界上陆海相互作用最活跃的地区之一,对大量动植物和水生生物的生存至关重要,而海洋沉积物则是痕量元素的重要汇

学位

痕量元素双壳贝类表层沉积物环境风险评价黄海渤海

沥青混合料VMA技术指标探讨

矿料间隙率(VMA)是沥青混合料一项非常重要的技术指标。现行规范对不同类型的沥青混合料提出了不同的VMA最小值要求。通过对沥青混合料VMA值影响因素的分析,给出经过变化矿料

期刊

VMA沥青混合料影响因素调试方法

某型取力器结构优化及其动态特性分析

汽车取力器(PTO)是实现专用汽车与其专有设备之间动力传递的重要部件,在多数情况下是装在变速箱外侧的附加装置,其重量和寿命对专用汽车的使用和制造成本有直接影响。为了降

学位

取力器箱体啮合齿轮刚强度动态特性结构优化

大规模数据处理系统中MapReduce任务划分与调度关键技术研究

其他学术论文