面向编码MapReduce的通信性能优化研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:huayi8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MapReduce是一种常用的大规模分布式计算范型。在其Shuffle阶段时,计算节点间需要相互交换大量中间结果,从而导致高额通信负载,且随着集群规模的扩大,通信瓶颈问题也会更加严重。近年来,研究者提出了编码MapReduce框架,通过引入计算冗余,并采用计算节点对中间值进行异或编码再多播的方式,从而能够大幅降低通信负载。但现有的编码MapReduce方法主要是针对中间值字节长度相同、网络带宽同构的场景进行优化,当将其用于中间值长度异构的应用场景或带宽异构的网络环境中时,其性能将受到严重影响。针对上述问题,本文围绕中间值长度异构与网络带宽异构,对编码MapReduce框架下的通信性能优化进行了深入研究,主要贡献如下:1)针对中间值字节长度异构下的编码MapReduce通信负载优化问题,首先提出了一种泛化的编码MapReduce框架,其中Reduce函数的分配扮演了重要角色,并在计算负载固定的前提下,基于Reduce函数分配与中间值长度对通信负载进行了理论刻画。在此基础上,提出了基于Reduce函数分配的组合优化问题以最小化通信负载。本文证明了该优化问题为NP难问题,进而提出了一种具有低时间复杂度的近似率为2的贪心算法。基于阿里云平台的实验结果以及仿真的实验结果均表明,所提的中间值字节长度感知的编码MapReduce方法可以显著减少通信负载,缩短总执行时间。2)在中间值字节长度异构的基础上,进一步针对带宽异构的网络场景,在泛化的编码MapReduce框架基础上,研究了如何基于计算节点带宽异构进行Reduce函数分配以缩短作业执行时间。对于固定的计算负载,本文根据Reduce函数分配、中间值长度以及节点带宽刻画出通信时间,通过分析得到最小化通信时间的理论性质,并在此基础上提出对应的组合优化问题,旨在以适当的Reduce函数分配来最大程度地缩短通信时间。之后证明了该优化问题是NP难的,进而提出一种有效的贪心算法。最后基于阿里云平台的实验结果以及仿真的实验结果均表明,所提的带宽异构感知的编码MapReduce方法可以显著减少通信时间,缩短总执行时间。
其他文献
模仿学习研究智能体如何通过对给定专家示范进行模仿以学得专家策略的学习问题,近年来受到越来越多的关注。现有的模仿学习方法难以解决专家示范的状态高维、状态空间与智能体所处的环境异质、以及可能出现新动作示例的问题。本文针对这些问题开展研究,主要取得了以下创新成果:1.提出了针对高维输入的模仿学习方法Hash Reward,通过使用有监督的哈希技术对高维输入进行降维,使得奖赏函数达到“奖赏”-“判别”的平
为了研究含油结合面的接触刚度特性,本文采用分形接触理论、连续变形理论和刚度分配模型,建立了微凸体及油膜的接触刚度模型并将其耦合。通过这个模型,分析了材料特性、摩擦因数及润滑介质对法向接触刚度的影响。结果表明:接触载荷较小时,油膜刚度占总刚度比重较大;接触载荷较大时,油膜刚度占总刚度比重较小。对比模态试验与有限元结果,考虑摩擦的含油模态试验及有限元分析的固有频率均明显大于无油无摩擦情况。在考虑摩擦和
近些年,以深度神经网络为代表的深度学习方法在图像、文本、语音、视频等任务中取得了巨大的成功,其中“深度”的思想被认为是深度学习的关键。然而,在实际应用中,深度神经网络面临着计算开销大、训练集规模要求高、不能很好地支持表格型数据集等问题。为解决上述问题,学界开始尝试融合“深度”的思想和集成学习方法的优点,并研究提出以深度森林为代表的深度集成学习模型。与DNN架构设计类似,针对不同的输入数据集以及任务
学位
学位
研究目的:通过锥形束计算机成像技术(Cone-beam computed tomography,CBCT)对骨性Ⅲ类错(?)下颌中切牙冠根形态进行分析,探讨不同唇倾度的骨性Ⅲ类错(?)下颌中切牙冠根形态的特征,并分析下中切牙冠根形态与其相应的牙槽骨形态的相关性,为正畸临床诊疗提供参考。研究方法:从拍摄CBCT的患者中随机选取对照组正常(?)患者15例(男9例,女6例,平均年龄21.6岁),实验组骨
本文利用各种统计诊断方法及1979-2019年逐日海冰面积和厚度数据、北极海冰初始融、冻日数据以及相应的逐日大气和海洋数据对北极海冰的多尺度变化特征进行了系统分析。首先分析了北极海冰季节性冻、融过程特征及成因;其次,分析了海冰面积和厚度的季节内振荡(ISO)特征及其长期变化;再次,对大气和海洋影响海冰ISO的机制进行了讨论。最后,评估了CMIP6中20个地球系统模式对海冰多尺度变化的模拟效果。主要
大气颗粒物是影响我国空气质量的主要污染成分,对经济社会发展和居民健康造成潜在威胁。气象条件对颗粒物污染的发生起重要作用,准确识别出容易引发颗粒物浓度超标的气象因子和天气形势有助于污染防范和治理。本文基于气象和污染监测数据,借助天气分型、后向轨迹和WRF-Chem大气化学模式等工具,分析了中国成渝地区2015年至2020年颗粒物污染状况,探讨了影响区域性颗粒物污染程度的天气与气象因素,并对该地区20
学位
背景:胃肠道恶性肿瘤由于逐年升高的发病率和较差的预后,已经成为人类生命健康的重要威胁。其中的结直肠癌和胃癌更是占到了每年恶性肿瘤新发病例数的17%,在世界范围内造成每年169万人死亡。尽管胃癌和结直肠癌的诊疗技术在不断进步,但是由于胃肠道恶性肿瘤高度的异质性和调控机制的复杂性,仍有大量的胃癌和结直肠癌患者在接受规范的根治性治疗后发生复发和转移,尤其是进展期的胃癌和结直肠癌。随着生物信息学技术的发展