【摘 要】
:
数据倾斜指大数据平台下经常出现的某一个分区数据量远大于其他分区数据量,导致分配不均的情况。如果分配给每个节点的数据不均匀,那么执行过程中会出现某些task的执行时间远大于其他task的现象,不仅严重影响程序执行的性能,而且过多占用资源可能会使系统崩溃。论文选题来源于企业实际开发特性,主要针对Spark生产环境中出现的数据倾斜现象进行研究。此现象普遍发生于Spark的实时处理和两表连接场景。其中,对
论文部分内容阅读
数据倾斜指大数据平台下经常出现的某一个分区数据量远大于其他分区数据量,导致分配不均的情况。如果分配给每个节点的数据不均匀,那么执行过程中会出现某些task的执行时间远大于其他task的现象,不仅严重影响程序执行的性能,而且过多占用资源可能会使系统崩溃。论文选题来源于企业实际开发特性,主要针对Spark生产环境中出现的数据倾斜现象进行研究。此现象普遍发生于Spark的实时处理和两表连接场景。其中,对于Spark实时处理场景,消息队列Kafka分区数据的随机分配和某个Executor或者同一本地化级别上待执行任务的堆积都很容易造成倾斜现象;而在Spark两表连接的过程中也暴露出几个容易导致倾斜的问题:Shuffle过程中Hash分配的弊端、物理算子树采用统一的Reducer数目引发的资源利用率低和错误估计数据量导致选择带Shuffle操作的执行方式。因此,上述两种场景的倾斜问题已经成为了Spark分布式计算和性能提升的瓶颈。本文结合Spark数据倾斜场景的业务需求,并根据当前倾斜问题解决方案的国内外现状,通过对Spark Streaming和Spark SQL相关源码的研究与分析,设计实现了一个具有普遍适用性的解决方案。具体工作如下:1)针对Kafka不同版本的本地化差异,通过现有的取模运算实现有次序的动态绑定和兼顾本地化的动态绑定来改变数据随机分配的方式,并基于动态绑定方式,借助Spark的反压机制控制执行的消费速率以解决实时处理场景的数据堆积问题;2)内核代码引入自定义的本地化率计算公式让Spark实时处理系统自行判断降级操作,减少用户自行设置本地化级别等待时间带来的误差;3)通过自定义的倾斜度计算公式和重度倾斜分区切分来确定Reducer数目,并在SQL语句执行过程中根据Stage输出数据量动态选择合适的执行方式,以此来达到最佳的执行计划;4)采取Map端数据部分读取多次join的方式,并提出基于MDP的分区重组算法实现Reducer端分区数据的最优组合以解决两表连接场景Hash分配弊端带来的性能问题;5)对两种场景的功能性需求和非功能性需求进行全方位测试并对比分析,证明本文提出的解决方案确实能提高Spark在数据倾斜场景下处理数据的吞吐量和性能。当前数据倾斜场景解决方案代码以非侵入式的思想合入到公司自研发产品的内核代码,为防止对原有代码产生影响,只有相关配置项开启时优化方案才能生效,基本解决了日常运维人员发现的数据倾斜问题,并应用于许多使用此产品的业务场景,但目前随着数据量的不断增加和涵盖场景的多样性,可能未考虑到一些特殊的数据倾斜场景,需要不断寻求改进。
其他文献
细胞程序性死亡(PCD)是指在生物体中由基因调控的、自主发生的、有序的细胞死亡现象。禾谷类作物糊粉层PCD在种子萌发中起着至关重要的作用。研究发现,H2O2和液泡加工酶(VPE)均影响糊粉层细胞液泡化进程及PCD。本研究以水稻(Oryza sativaL.)“博II优767”种子为实验材料,通过药理学、生物化学、细胞形态学和分子生物学等手段,并结合显微技术,探究内源H2O2和OsVPE3调节水稻糊
在课堂教学过程中进行问题的设计有助于提高学生学习兴趣,增加教学的启发性,本文从问题设计的现状出发,通过调查,分析并对当今问题设计中出现的问题进行把握,激发教师对教学中问题设计的重视,探索形成问题设计的方法和策略,并对问题设计是否有利于学生创新思维的培养做出了研究,为教师进行教育教学提供参考。在课堂中,教师与学生之间的交流非常重要,而在交流过程中,问答形式占据了大部分的比重,起到了举足轻重的作用。随
随着医院信息系统的不断发展与完善,这些医疗信息系统已经不再只满足于对诊疗数据的存储和查询等操作了,人们希望诊疗数据不仅可以描述诊疗过程的业务逻辑,还可以对诊疗数据
近年来自动无人驾驶汽车,机器人智能感知,安防监控等领域的不断发展,使得人体目标识别技术已成为了研究热点并作为其重要的技术基础。然而在识别过程中,由于人体目标的非刚性和周围环境的干扰对图像目标产生噪声,遮挡等问题,使得人体目标识别在准确率,误检率和漏检率上存在问题。为此,本文基于特征融合的方法,在人体目标识别过程中,对于目标特征信息描述单一,遮挡目标无法识别,分类器性能较差等问题进行深入研究,旨在取
寶卷源自佛教俗講,是明清時期重要的民間文獻,其語言具有十分鮮明的口語色彩,一定程度上反映了當時的語言特點。基於對山西介休寶卷的整理分析,本文研究內容主要包括以下兩個
抗菌肽(Antimicrobial peptides,AMPs)是由生物体产生具有抗微生物活性的短肽,通常由6-60个氨基酸组成,呈现酸碱稳定性和热稳定性,抗菌谱较广。杂合方法是一种近年来兴起的抗菌肽改造策略,将两种或两种以上具有不同特性的抗菌肽融合产生新的抗菌肽,引入不同抗菌肽的特性,定向对抗菌肽进行改造。因此,通过杂合方式对抗菌肽氨基酸序列进行改造,提高抑菌活性、降低细胞毒性已成为抗菌肽研究的
离线交易场景中,本地偏好是一个常见的现象,指投资者行为呈现地理位置上的趋同性,而不是扩散到广泛的距离范围,换句话说,投资者行为很难打破地理位置限制。越来越多的学者认
一直以来,我国民族地区受地理、交通、文化、政治、经济、语言等因素的影响,教育环境具有自身特点,民族地区学生的数学思维和能力发展也具有本土特征。随着现代化进程的加速,少数民族学校教育趋于“汉化”,政府大力促进教育公平也取得了一定成效,民族地区的数学教育现状是否正在悄然改变,是值得关注的问题。合情推理能力作为新时代最符合社会现实和学生需要的能力,通过调查了解民族地区初中生合情推理能力的发展现状及其特点
遥感图像的变化检测是检测同一区域前后两个时相上遥感图像的变化情况。合成孔径雷达(SAR)利用主动微波进行成像。相比于光学、红外等其它传感器,SAR成像时不受云、雨、气候的干扰,能够对目标实现全天时、全天候的检测。随着SAR成像技术不断发展,越来越多检测性能极佳的体制雷达出现,对变化检测方法也提出了更高的要求。目前SAR在抗洪救灾、城市规划、农业管理、地形勘探等领域有很大的用处。本文主要对SAR图像
随着半导体集成电路技术以及通信技术水平的不断提升,CPU高密度计算、密集图像信息处理、网络信息交互以及高密度数据传输都对I/O接口的带宽以及不同芯片之间的信息传输质量要求越来越高,信号传输接口的信息传输能力直接限制了系统处理数据的能力,故高速且不失真的信号传输接口成为了当前以及今后的一个研究热门方向。当半导体工艺进入深亚微米及纳米级别后,半导体器件以及电路系统的工作速率也随之变得越来越快,传统的并