大数据处理Shuffle性能优化研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:liongliong421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大规模数据的分析处理中,以Hadoop、Spark为代表的Map Reduce数据并行处理系统被众多行业广泛使用。在Map Reduce并行计算模型中,Shuffle负责连接Map阶段和Reduce阶段,是整个数据中转的枢纽,涉及磁盘读写和数据跨节点传输,深刻影响着整个计算的效率。然而,现有大数据处理系统的Shuffle框架在稳定性和计算性能方面还存在一些问题。一方面,随着应用数据规模的扩大,用户通常会采用更多计算节点进行处理。更多计算节点的加入意味着Shuffle需要在更大节点范围内进行数据中转,因此发生故障的概率更高。当前的计算作业通常利用重计算的方式缓解Shuffle故障造成的影响,但是这大大降低了计算性能和资源利用率。另一方面,Shuffle并行度对性能的影响也很大,Shuffle并行度过小会难以充分利用计算资源提升处理速度,Shuffle并行度过大又容易造成更多的网络通信开销从而影响性能。在实际应用中,应用开发程序员难以根据输入数据和集群资源手工设置合理的Shuffle并行度。为了解决现有Shuffle机制在实际应用中稳定性差、性能低以及Shuffle并行度手工设置难度大的问题,本文研究并提出了基于数据多副本模型与基于文件预合并机制的两种分布式Shuffle数据读写优化模型,以及面向Shuffle并行度自适应调优的并行计算优化方法,并且在当前主流的大数据处理系统Spark上实现了本文提出的方案。本文的主要工作与贡献点包括:(1)为提升大数据处理系统的Shuffle数据读写性能与稳定性,研究提出了通用的抽象分布式Shuffle数据读写性能优化模型——基于数据多副本模型的Shuffle模型与基于文件预合并机制的Shuffle模型。(2)在上述基本模型基础上,基于主流大数据系统Spark,研究实现了基于数据多副本模型的Shuffle框架,利用分布式文件系统提供多副本模型能力,对Shuffle数据进行备份,以多副本I/O操作交换重计算开销,以此提高系统的稳定性和容错能力。为提升备份数据查找效率,研究提出了基于计算作业结构的层次化索引方法。(3)基于主流大数据系统Spark,进一步研究实现了基于文件预合并机制的Shuffle框架以提升数据读写性能。该框架利用Task先后完成的时间差,按照分区拼接的方式合并Shuffle文件,减少了Shuffle数据读取过程中网络I/O通信及磁盘寻道次数,提升了Shuffle数据读写性能。为了提升文件预合并机制的性能,研究提出了部分文件预合并机制以及数据本地性优先的合并调度策略。(4)在优化了Shuffle数据读写性能后,为解决Shuffle并行度手工设置难度大的问题,研究提出了基于机器学习模型与智能化搜索算法相结合的Shuffle并行度自适应调优方法。该方法使用回归模型构造性能预测模型,以刻画包括Shuffle并行度在内的作业特征与作业运行时间的关系,并且通过该模型的预测结果指导网格搜索算法,以找出使模型预测作业最短运行时间的最优Shuffle并行度,从而将最优Shuffle并行度配置到作业的后续计算中,提升作业整体运行性能。(5)实验结果表明,本文提出的分布式Shuffle数据读写性能优化框架能提供100%的稳定性,在Shuffle失败场景下至少能提升作业5%到30%的性能,在作业被切分成多个小任务的场景下能提升作业15%到40%的性能;本文提出的Shuffle并行度自适应调优方法得出的Shuffle并行度相较作业默认值显著地缩短了运行时间,平均提升20%左右的作业性能。(6)作为一个实际落地应用案例,本文所实现的Spark Shuffle数据读写性能优化方法和系统已部署在字节跳动的生产环境中,支持前端的今日头条和抖音等系统业务,系统稳定运行一年以上,覆盖超过57%作业的Shuffle数据,平均提升作业12%左右的性能,为数据分析师、数据工程师等用户提供稳定快速的查询分析与数据处理功能。
其他文献
随着计算机技术的快速发展,网络与我们生活联系愈加密切,所以将网络用于传统的控制系统引起海内外研究人员的广泛关注,越来越多的学者对其进行研究,网络化系统因此应运而生。
长期以来,学生学习成绩预测一直是教育数据挖掘领域的重要研究课题。许多文章提出了利用学生行为或心理特征预测学生成绩的模型。然而,课程内容对学生的学习成绩也有很大的影
在教育改革不断向纵深推进的过程中,培养全面技能型操作人才已经成为高职学校教学首要目标。由于高职学校建校时间相对较短,人员结构不合理以及自身办学处于一个不断探索、完
祁漫塔格地区已发现一批大、中型矿床,包括尕林格、四角羊—牛苦头、野马泉等大型矿床,以及肯德可克、它温查汉等中型矿床,是青海省最重要和最理想的成矿地区之一。其中,野马泉地区是祁漫塔格地区具有代表性的铁多金属成矿地区,该地区的地理气候、道路交通、外部环境,以及开发条件都比较优越,而且找矿效果和成果均很好。本文以野马泉东部作为研究区域,该区域既有大型规模的尕林格铁多金属矿、四角羊—牛苦头矿区,也涵盖大面
时代发展科技进步,越来越多的电子产品走进人们的生活,微电子产业成为生产电子产品的核心,微电子产业中最重要的部分是电子封装技术,因此为了适应产业需要发展了多种多样的电
随着网络时代的日益发展,网络安全更加重要。基于角色的访问控制机制因在权限和用户两者之间添加角色使得控制权限更灵活、授权管理更简单,管理开销也大为减少,能有效提高企业信息系统的安全性。本文以提高如钢铁企业等大型企业的信息系统安全性为目标,研究适合该类企业信息系统中的访问控制技术。本文首先分析现有的基于角色访问控制模型(如ARBAC97模型、RBAC96模型、ARBAC02模型)以及这些模型在钢铁企业
随着电子封装技术的快速发展,微电子领域不断地对焊点可靠性提出新的要求,过厚的界面IMC将降低焊点可靠性,因此需要对界面IMC层厚度进行严格控制。采用镀Ni层可以有效延缓界
图像分割是计算机视觉以及图像处理领域十分重要的问题,它是将人们感兴趣的目标区域从图像中分割出来,从而实现对这些感兴趣目标的识别、分析以及进一步处理。目前,在工业、
微分方程边值问题己经广泛应用在物理、医学、化学等很多学科中。近年来,现实生活中不断出现的大量问题,需要人们利用微分方程边值问题的相关理论与方法去处理和解决。所以对
薄膜晶体管液晶显示器(TFT-LCD)作为当前主流的显示技术,已经经过了近30年的发展,发展出几个不同的技术方向,分别为高温多晶硅、低温多晶硅和非晶硅技术。每种技术都具有一定的