基于Adam局部优化的分布式近似牛顿深度网络训练

来源 :南京信息工程大学 | 被引量 : 1次 | 上传用户:yiwangcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式学习是减轻现代机器学习系统中不断增加的数据和模型规模压力的有效工具之一。DANE算法是一种近似牛顿方法,已被广泛应用于通信高效的分布式机器学习。与传统方法相比,DANE具有收敛速度快且无需计算Hessian矩阵逆的优点,从而可以在高维情况下显著减少通信和计算开销。为了进一步提高计算效率,本文研究如何加快DANE的局部优化。本文选择使用最流行的自适应梯度优化算法Adam取代常用的随机梯度下降法用来求解DANE的局部单机子优化问题,同时提出了在迭代期间添加随机采样步骤的方法以降低每次迭代的计算成本并模拟多机计算环境。在实验中,我们设置了三种不同的局部样本大小进行比较。实验结果表明,通过设置合适的抽样比例,基于Adam的优化在训练速度上可以明显快于原始的基于SGD的实现,同时仅会小幅牺牲模型精度。但实验结果也表明使用Adam带来了一定的泛化能力下降。为了解决使用Adam算法所带来的泛化能力不足的问题,本文引入了一种从Adam自适应切换到SGD的混合策略SWATS。实验证明,该策略既能保留Adam算法在训练初始过程的的优势,又能提高训练结果的精度。本文通过MXNet平台将优化后的算法应用于分布式训练。实验结果表明随着并行机器数量的增加,训练的速度明显提高,并且几乎不会牺牲模型泛化能力。
其他文献
民营小企业是我国国民经济和社会发展的重要力量,其发展对保持国民经济平稳较快发展、对民生和社会稳定都具有重大的意义。近几年来,国家陆续出台了一系列扶植小企业发展的政
实验测定了二氧化碳和碳酸二甲酯(DMC)二元体系的高压气液相平衡数据.实验温度为333.0到393.0K,实验压力为3.98到13.75MPa.应用Peng-Robison(PR)立方形状态方程和vander Waals-1混合规则
简要论述了陆相火山作用的主要形式,对其中的火山喷溢喷发建造形式的金铜成矿作用特征举例说明,归纳总结,以供相类似的成矿作用的矿产地参考。
本文研究了Fe-12Cr-9Ni-4Mo-1.8Ti-2Cu马氏体时效不锈钢的组织和力学性能,考察了Cu含量改变时力学性能的变化。研究表明,该合金具有较高的时效硬化效果,固溶态样品在500℃时
采用分子动力学方法模拟了不同孪晶界密度银纳米线的拉伸形变行为,分析了孪晶界密度对多晶银纳米线屈服强度、弹性模量和塑性变形机理的影响.在弹性形变区域,孪晶界的存在对
由于Cd有毒性,AgSnO2触头材料逐渐取代了AgCdO成为新型触头材料,但由于AgSnO2触头材料中的SnO2近乎绝缘,使得触头材料的接触电阻增大,故改善SnO2的导电性是急需解决的重大难