【摘 要】
:
分布式深度学习训练中,传统的模型并行和数据并行由于并行粒度大,节点资源利用不充分,效率不高。近年兴起的流水线并行模式,克服了以上两种模式的缺点,提高了设备资源的利用率,降低了通信量。然而,在流水线并行的模式中,由于任务本身的复杂性,仍然存在节点任务划分不均衡、各节点并行不充分的问题。为了进一步提高流水线并行的效率,基于任务的数据流图分析,提出一种在流水段中加入卷积层修剪策略的流水线并行方法Pipe
论文部分内容阅读
分布式深度学习训练中,传统的模型并行和数据并行由于并行粒度大,节点资源利用不充分,效率不高。近年兴起的流水线并行模式,克服了以上两种模式的缺点,提高了设备资源的利用率,降低了通信量。然而,在流水线并行的模式中,由于任务本身的复杂性,仍然存在节点任务划分不均衡、各节点并行不充分的问题。为了进一步提高流水线并行的效率,基于任务的数据流图分析,提出一种在流水段中加入卷积层修剪策略的流水线并行方法Pipe Prune。由于神经网络模型本身的序列性和复杂性,仅依靠划分算法无法将整个模型划分为均等的部分,耗时不同的模型块在流水线中会产生气泡和空隙,进而造成流水线效率低下。为解决上述问题,对每个流水段的数据流图进行分析,统计每个流水段的的执行时间、参数量大小、激活值等信息。有针对性地对耗时长的网络模型块进行部分修剪,可以有效地均衡各个流水段之间的执行时间,使得流水线更加紧凑。在网络模型中,卷积层占据了大部分的计算时间,对卷积层进行处理可以有效减少该流水段执行的时间。具体地,依据该流水段执行的时间,设定其中卷积层的修剪比例k,计算每一个卷积核的1范数,修剪掉前k个数值最小的卷积核,进而减少该卷积层处理的时间。最后在训练过程中,维护多个训练批次数据的参数版本,对参数更新加以控制,保证神经网络模型的收敛性和最终精度。上述方法实现在典型分布式深度学习系统Py Torch上,使用典型的数据集Image Net-1K(ILSVRC 2012)进行测试评估。实验结果表明,Pipe Prune能够有效加速流水线并行深度学习训练,保证最终精度损失在可接受的范围内,与未加入修剪的流水线相比可提升训练速度30%以上。
其他文献
本文研究并实现了一款全数字式的高精度守时型GPS同步时钟卡。通常的电网系统中一般选择GPS同步时钟信号来标记异常数据发生时刻。标记异常发生时刻信息可用于准确的故障定位。然而极端自然灾害或主动攻击情况下,GPS时钟卡有可能没信号导致失效。为提高电网的鲁棒性与安全性,需利用时钟卡自身晶振信号来提供时间基准进行守时,保证时钟卡输出时间刻度的稳定和精度,从而确保电网的故障定位等功能。论文首先提出了一种综合
在大数据时代,以基因测序数据为代表的新型数据资源飞速增长,由此产生的高效传输与存储需求推动了数据压缩技术的发展。目前,基于BWT的BZIP2压缩算法由于具有较高的压缩比,在文本压缩领域持续受到广泛关注,但其BWT环节的严重耗时问题也长期困扰着相关研究人员。已有研究证实,硬件实现适用于提升压缩算法的压缩速率。然而现有的BWT硬件加速方案受限于传统的计算架构,仅支持最大4KB的数据块,无法满足BZIP
DC-DC变换作为一种基本的电能变换方式,广泛用于无人艇、照明电源、能量存储装置、电动汽车充电桩等应用中。CLLLC变换器是DC-DC变换器众多拓扑结构中的一种,具有高功率密度、宽调压范围、高开关频率等特点。然而,较高的开关频率以及电压脉冲等因素使得变换器中开关管容易发生故障。本文以双向CLLLC谐振变换器为研究对象,以提高变换器设备可靠性为目标,对这种变换器调制策略以及其功率管开路故障诊断方法展
海浪方向谱可以描述海浪能量在频率和方向上的分布,对海浪相关研究具有重要的意义。在海浪理论研究、船舶设计、海上平台设计及相关海上工程建设中,往往需要给定海面条件下的海浪方向谱,这可以通过将海面条件参数(如风速、有效波高、峰值频率等)输入到经验方向谱模型中计算得到。随着海浪方向谱的应用范围逐渐扩大,建立准确的经验海浪方向谱模型也变得愈发重要。本文基于NDBC(National Data Buoy Ce
图像去模糊是图像复原任务中一个重要的分支,它能把模糊图像复原为质量较高的清晰图像,不仅具有十分重要的理论和现实意义,还有巨大的商业价值。而在无人机、航天飞机、天文以及军事场景中,由于成像传感器的平台并非静止且运动路径多变,在真实的三维空间内,还有三个方向的旋转自由度,在传感器平台进行转向时将会产生旋转运动模糊,这种旋转模糊不可避免,给后续的图像识别与目标检测等工作带来极大的麻烦。本论文针对旋转运动
当前,远洋航运在世界经济的发展过程中起到越来越重要的推动作用,受到各国的普遍重视。在远洋航运中,平滑且路径较短的航行轨迹不仅能降低船舶航行时间,还能降低油耗、减少污染,此外,海上碰撞事故频发,不仅经济损失重大,也造成很多人员伤亡,所以船舶的航迹规划技术研究具有重要的理论价值和现实意义。本文以船舶全局航迹规划和局部避障规划为研究对象,采用智能技术理论方法为船舶航行规划出最优的航行轨迹,并且保证船舶能
云计算、大数据、物联网、移动互联网等技术普及,超大流量数据传送、存储、共享等应用需求日益旺盛,信息的爆发式增长导致传统强度调制直接检测光纤通信技术已无法满足未来信息化智能化应用需求。由于数字相干光纤通信系统符合长距离、大容量、高速率光纤通信发展趋势,成为国内外研究热点。数字相干光纤通信系统的测试评估一般需要使用多种仪器设备,通常情况下需要手动调节以完成设备功能参数设置,无法满足自动化测试需求。如果
传统体外授精一般挑选优质胚胎移植,此方法能提升胎儿25%的出生率,胚胎活力的评估主要基于胚胎学家的视觉分析,不但受限于观察者之间的差异,而且非常耗时。最近几年深度学习掀起一波热潮,它在分类任务中的效果非常好,国内外学者将其应用在细胞计数、胚胎评估和卵母细胞评估中,不但节省了很多时间,而且比人工方法准确,临床运用效果显著。因此本研究将深度学习与模型迁移结合起来,开发胚胎的自动分类方法。主要内容与成果
近些年来,光学生物传感器技术在医学研究和临床诊断领域得到了广泛的研究,特别是在高度稀释的溶液中检测少量分子时,对于疾病,比如癌症等的早期诊断有着重要价值。已经为此目的开发了几种方法,包括基于超材料的无标记等离子体生物传感器,在高度稀释的溶液中检测生物分子有着显著的应用价值。在此背景下,本文设计了一种基于双曲线型超材料的生物传感芯片,该芯片可支持近红外波段的体等离激元模式。通过使用棱镜耦合技术激发这
手势作为人类与外界交互的重要方式之一,在人机交互的应用中起到重要的作用,因此准确地估计人手三维(3D)姿态是必不可少的。而深度卷积网络在各类应用中都有较为出色的性能,故在单目RGB图像估计人手3D姿态的任务中使用深度卷积网络进行研究与探索。因为深度卷积网络的性能与网络训练时所使用损失函数、研究问题的先验知识有关,故研究了高斯损失函数、人手关节点间前后位置关系以及相机透视成像原理在基于深度卷积网络的