深度神经网络数据并行训练加速策略研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:xy_zhuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,深度神经网络在图像和语音等研究领域中展现出了惊人的建模能力,因此在学术界和工业界大受欢迎。但是随着研究的深入,深度神经网络的模型结构变得越来越复杂,参数数量越来越多,另一方面,可用于训练的标注数据规模也变得越来越大,尽管当前的硬件算力也一直在不断地提升,但是依然无法满足人们日益增长的快速迭代算法模型的需求。对于学术界,需要拥有快速训练算法模型的能力,以便于能够快速分析实验结果做出算法调整;对于工业界,更是需要能够快速迭代模型,以便于在新场景上快速更新,以维持产品的技术优势。尽管诸如Google、Facebook和百度等巨头已经有了一些在大规模GPU集群上的训练加速研究工作,但是这些相应的分布式训练系统也少有开源,无法直接借鉴应用。因此本文首先是定义出了多服务器多GPU场景下,深度神经网络数据并行的训练策略与流程。然后本工作基于钩子机制,实现了 PyTorch框架下简单易用的数据并行分布式训练扩展接口,并且通过分析发现数据并行训练中,梯度数据碎片化的问题不利于全归约通信的带宽利用率,因此提出了惰性通信策略,将碎片化的梯度数据汇总之后进行全归约同步,有效提高了通信中的带宽利用率。另一方面,本工作的PyTorch扩展还实现了混合精度训练的支持,在具备有Tensor Core的GPU上可以获得最高1.71倍的训练加速效果,同时为了解决混合精度训练中梯度数值溢出的问题,本文提出了一种自适应的溢出可感知的损失放大策略,有效缓解了梯度溢出在混合精度训练由梯度溢出导致的训练不收敛问题。此外,本文还证明了在多机多卡下的数据并行训练应该采用局部批归一化,这对于含有较多批归一化层的神经网络的加速效果尤为明显。最终本文在4机32卡这样的中小规模集群上实现了最高99.4%的机间扩展效率,并且在1小时37分钟就内就可以完成MobileNet-vl在上的训练。此外通过本文所提的分布式训练扩展策略,在采用了较大训练数据批量的场景下,所训练模型不仅准确率没有下降,甚至还高于官方基线。比如本文训练的ResNet-50达到了 78.06%高于官方的76.86%,而MobileNet-vl则达到了 73.48%,高于官方的70.9%。
其他文献
市场环境如此糟糕的情况下下,中国南车与中国北车几改方案,坚持将募资进行到底。    “逾期的话,明年就不一定能有这笔钱了。”一位接近国资委的消息人士透露,国资委承诺向南车集团和北车集团分别注资20亿元,但前提是,两家公司需要在年底前完成融资方案。  10月10日,中国北车发布公告称,鉴于资本市场环境发生变化,公司决定放弃定向增发方案,调整成向全体股东配股。新方案将按照每10股配售不超过3股的比例向
目前,中国经济增长已呈放缓趋势,滞胀苗头已现。2011年大学生就业倾向也发生变化。近期,智联招聘对19163名的2011年应届毕业生进行问卷调查,结果显示,就业大学生的实际要求与用人
数学课堂的首个环节就是导入。虽然所用的时间很少,但能帮助教师完成教学任务、提高教学质量和实现教学目标,具有举足轻重的地位。随着教育快速的发展,高中数学教学不断更新完善,课堂导入已成为该领域的研究趋势,因此,对高中数学课堂导入现状进行调查和测评具有重要意义。为了调查高中数学课堂导入的实施现状和影响导入的因素,通过文献研究法、问卷调查法、课堂观察法和统计分析法,以建构主义、先行组织者和认知主义作为理论
资本是新华联多元化发展的纽带。新华联集团最近备受媒体关注,先是借壳S*ST圣方的新华联不动产在深交所恢复上市;接下来新华联集团将成为太子奶的战略投资者参与其重整,经债权人
随着信息技术的快速发展,人类生活在越来越多的复杂网络中,比如社会网络、交通网络、电力网络、技术网络、通信网络等.面临复杂且多样的各类网络,人们最为关心的问题是:我们赖
目的观察替米沙坦对非酒精性脂肪性肝炎(NASH)大鼠肝纤维化的疗效和对基质金属蛋白酶-13(MMP-13)及其抑制因子-1(TIMP-1)的表达和胰岛素抵抗的影响。方法30只雄性SD大鼠随机分为正