Spark中缓解数据倾斜的自适应任务调度技术研究与优化

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：rooku

【摘要】

：

【作者】

：

俞嘉栋

【出处】

：

上海交通大学

【发表日期】

：

2020年03期

【关键词】

：

MapReduce RDD Spark 任务调度自适应数据倾斜

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大数据及其相关处理技术成为当今计算机科学领域和工业界最重要的技术之一,最为崭新的知识获取范式,商业公司和学术科研组织已经将大数据的获取、存储与处理能力作为其核心竞争力之一。大数据面临着诸多问题,数据的规模正在非线性增长,传统的数据库技术早已不能满足大数据的要求。Google公司于2004年提出的MapReduce框架成为大数据时代具有里程碑意义的技术,然而近年来层出不穷的新场景、新应用却使MapReduce的开源实现Hadoop遭遇前所未有的冲击。2011年由Matei Zaharia提出的基于RDD即弹性分布式数据集概念的通用内存计算框架Spark在批量计算、迭代计算和流式计算等高速场景表现良好,但是这两种通用模型都要面对数据倾斜的问题,实际上只有少数系统如HBase、Pig等才有相应的防倾斜策略。本文深入探讨并总结了 RDD的原理和Spark的执行流程,结合MapReduce下的传统策略,分析了其处理数据倾斜的缺陷,致力于引入少量改动而大幅提高其缓解数据倾斜的性能,最终实现了优化的SASM策略。Spark将最小的调度粒度控制在任务层,每个任务中处理的数据量在任务执行中是不可变的。但是Spark在实现时良好的分层结构使调度粒度控制变得更加灵活,使其在数据倾斜场景下有很大的优化空间。SASM的核心思想为将调度粒度下移到文件块层,使得数据能在任务层自由调度,最大程度平衡各个任务的负载量。SASM为了减少文件调度前由扫描引起的大量磁盘I/O开销,只利用任务在执行中用于获取真实数据的文件块元数据,并以此为基础计算调度策略,为了避免不必要的调度,调度策略只辨识执行最慢的任务,并将其所属文件块分配给执行较快的数个任务。Shuffle时的下游任务除了接受Spark调度系统传送的文件块,还在任务执行过程中动态添加或者删除文件块。调度系统基于异步消息模型,即可以保证指令的顺序执行,也可以避免消息处理阻塞数据处理过程,提高的CPU处理效率,代价是消息接收方需要对消息有效性做出鉴别。SASM策略在执行中会同时收集任务的计算速度和网络传输速度,通过将其纳入调度方案的计算使调度更加公平。本文还讨论了其他配套的优化措施,包括维持执行器池和拉取器分阶段处理,一定程度上增加了该策略下的调度空间,提高了其效用。最后,本文设计并执行了大量实验,对SASM引入的新特性进行了认真的评估,包括实验数据结果的分析、理论推演与论证、实验数据的佐证。SASM策略在数据倾斜场景下的性能优于原先的Spark,但是对于存在多个拉取器的任务会引入一定的阻塞开销,这会导致在数据零倾斜场景下性能的下滑,同时实验证明计算调度方案的开销较小。最后验证了该策略分别在计算性能不平衡和网络传输速度不平衡的场景下对性能的有效提高。在实践中,一些细微的改动也可以带来较大的性能提升,因此深入并细致的分析程序的每一处瓶颈资源并做出对应的优化,往往可以达到事半功倍的效果。

其他文献

基于非凸秩近似的低秩表示模型及算法研究

本文主要研究低秩表示模型及算法应用。近年来,低秩表示的理论及应用得到了许多学者的关注,并在图像处理、数据分析等多个领域获得了成效。如何将在高维数据中隐藏的低秩结构精确地恢复出来是利用低秩表示来解决各个领域中问题的关键,然而对于低秩表示模型的求解是一个NP难的问题,因为在低秩表示模型中通过实现对矩阵的低秩约束来达到矩阵恢复的目的,但是秩函数是离散函数。现行模型通常以核范数去近似秩函数,虽已可到达秩近

学位

低秩表示非凸秩近似子空间聚类交替方向乘子法人脸识别

基于KinectV2的香蕉植株特征检测技术的研究

香蕉是世界四大水果之一,在世界水果中占有极其重要的位置。目前我国香蕉果园的管理缺少信息化的支撑手段。如何自动获取香蕉的重要生长参数,提高种植园的科学管理水平,是亟

学位

KinectV2非接触式测量点云预处理特征参数

基于高速串行总线的空间高频磁场分布式测试系统设计

磁谐振耦合无线电能传输技术是当前无线电能传输领域的热点课题。磁场作为能量传输的媒介,直接影响着系统的传输效率,空间磁场分布研究是解决该技术目前面临问题的一个重要途

学位

高速串行总线无线电能传输高频磁场分布式测量

FDI攻击下信息物理系统的安全分布式Kalman融合估计

信息物理系统(Cyber-physical systems,CPSs)的分布式融合估计因计算速度快、可靠性高、容错能力强等特点受到人们越来越多的重视,在工控系统、智能家居等领域得到广泛应用。

学位

信息物理系统虚假数据注入攻击安全状态融合估计分布式融合非线性滤波

基于时变时滞离散T-S模糊系统的H∞滤波分析与设计

非线性和时滞是控制系统中普遍存在且不可避免的物理现象,也是控制理论研究的热点和难点之一。由于Takagi-Sugeno(T-S)模糊模型具有无限逼近封闭有界定义域内的任意连续函数

学位

Takagi-Sugeno模糊模型时滞分割二次Wirtinger不等式H_∞滤波器设计

基于可分离元素注意力机制的雨痕与背景耦合预测技术研究

在下雨天气获取图像时往往会在图像中产生雨痕,导致图像中的物体信息被破坏。这可能会导致后续计算机视觉系统的性能下降或者让拍摄者获取不到理想中的照片。要从单一图片中

学位

图像去雨痕图像修复耦合预测注意力机制

保障房居民服务质量感知对政府声誉的影响机制研究

随着我国经济的发展,我国也渐渐把目标放在从“经济导向”到“社会导向”,“政府本位”向“民众本位”的方向转变。提出了建设服务型政府的目标。近几年从“让市场其决定性作

学位

保障房服务质量政府评价结构方程模型

图像处理中的鲁棒主成分分析模型改进及算法研究

伴随着大数据时代的到来,人类社会进入了一个“数据化生存”的时代,人们每时每刻都在获取海量高维数据。然而,在计算机视觉、图像处理和信号处理等研究领域,这些高维数据往往是冗余的且含有噪声,给数据的存储、传输和分析带来了巨大的困难。因此,对这些海量高维数据进行降维和去噪处理是十分必要的。其中鲁棒主成分分析模型是目前已有的主流降维、去噪方法之一。本文主要研究鲁棒主成分分析模型、算法的改进及其在图像处理中的

学位

图像处理鲁棒主成分分析模型增广拉格朗日乘子法非凸近似矩阵分解

基于电子病历数据挖掘的急性冠脉综合征风险评估方法研究

心血管疾病是全球死亡的主要原因之一,急性冠脉综合征(ACS,Acute Coronary Syndrome)为其中的一种,在其早期治疗中,评估患者会发生诸如心肌梗死、中风或者死亡等不良事件的风

学位

急性冠脉综合征风险评估关系正则化深度学习多任务学习对抗训练

混合现实的视觉直观性应用研究

混合现实是一种将计算机生成的数字信息与现实中的物理世界结合起来的技术,其最显著的特征是全息影像观感体验,而同时,这种观感体验是视觉直观性的直接表现。本文在艺术与技

学位

混合现实全息体验直观性摄影暗房

Spark中缓解数据倾斜的自适应任务调度技术研究与优化

与本文相关的学术论文