论文部分内容阅读
数字信息化和大数据背景下,大规模机器学习的核心之一是研究收敛速度快、计算复杂度低的数值优化算法。由于数据规模的增大和机器学习模型参数规模的增加,确定性的数值优化算法存在着存储和计算上的局限。随机梯度下降(SGD)算法由于其简单易于实现、计算代价低、可扩展性强等特点,广泛应用于求解大规模机器学习的经验风险最小化问题。然而,由于随机采样的引入,随机梯度的噪声方差导致SGD算法收敛速度慢,在实际优化求解过程中需要大量的迭代计算。理论上,SGD在一般凸目标和强凸目标的随机优化中分别取得了O(1/∈2)和O(1/∈)的计算复杂度。机器学习的研究者们提出了AdaGrad、Adam等随机梯度算法的改进,这些方法在实际应用中因性能优越、适应性强而被广泛采用,理论上取得加速的收敛速度和O(1/√∈)的计算复杂度,然而在理论层面上与最优的计算复杂度仍然差距甚远。为了提高SGD的收敛速度和计算复杂度,机器学习的研究工作聚焦于SGD算法的改进,提出了一系列SGD的加速算法,包括基于步长选择策略、二阶梯度信息、随机梯度方差减小、动量加速、多阶段框架等的SGD加速算法。
本文在针对凸目标函数的SGD算法相关研究的基础上,结合自然梯度、随机二阶优化、随机梯度方差减小技术、动量加速和多阶段SGD加速等方向,从信息几何、二阶梯度信息加速、基于方差较小的随机梯度下降的动量加速、多阶段随机梯度下降的动量加速、非强凸目标优化算法计算复杂度的降低等方面展开研究,完成了以下创新性研究工作:
1.从信息几何领域引入自然梯度下降方法到随机优化中,并从两个角度给出了随机自然梯度下降方法的收敛率分析。首先从随机优化的角度讨论了随机自然梯度下降方法的收敛率,其次在证明自然梯度下降方法与镜面梯度下降方法的等价性后,通过对镜面梯度下降方法的收敛率分析间接得到随机自然梯度下降方法的收敛率结果。
2.结合方差减小的随机梯度下降和二阶随机优化方法,提出了随机方差减小的子采样牛顿(S2NMVR)算法框架。对于许多机器学习问题,子采样牛顿法利用海森-向量乘积技术,使得算法框架在二阶信息的估计上能够降低计算代价。在此算法框架下,本文提出了S2NMVR的两个变种算法S2DNMVR和S2DQNMVR,对于非线性目标函数的优化,最大程度地保留海森信息并降低海森-向量的计算开销。当目标函数是μ强凸和L光滑的,算法取得了线性的收敛率和O((n+L/μ)log(1/∈)的复杂度。
3.在方差减小的随机梯度下降算法基础上,结合Nesterov动量和Katyusha动量加速技术,提出了一种随机双加速的动量方法,其中Katyusha动量的引入用来消除加速算法对批量设定的依赖性,Nesterov动量的引入使得加速算法更加稳定。对于一般随机凸优化问题,证明了算法取得了加速的收敛率和O(n√1/∈+√nL/∈)的计算复杂度。针对稀疏数据的优化问题,提出了基于懒惰更新技术的算法进行迸一步加速。
4.在多阶段的随机梯度下降算法中,提出了基于动量的多阶段SGD加速算法,MAGNET。在多阶段的框架下,算法引入了一种磁铁动量来加速阶段性的SGD方法,消除了基于其它动量加速的SGD更新不稳定性,而且该算法的动量因子选择不依赖于随机梯度的噪声方差和阶段间的误差精度信息。该算法对一般随机凸优化问题,取得了O(√nL/∈+nσ2/L∈)的计算复杂度。
5.对于非强凸目标函数优化问题,提出了一种激进正则规约方法,在多阶段的框架下通过对目标函数增加自适应的正则化项,将非强凸的目标转化为强凸目标优化。理论上,该规约方法消除了计算复杂度的非最优对数因子log(l/E),降低了非强凸目标优化的计算复杂度,使得收敛率的上确界更加紧凑。相对于其它规约方法对初始化正则系数的依赖,该规约方法对正则系数的初始化更加鲁棒。
本文在针对凸目标函数的SGD算法相关研究的基础上,结合自然梯度、随机二阶优化、随机梯度方差减小技术、动量加速和多阶段SGD加速等方向,从信息几何、二阶梯度信息加速、基于方差较小的随机梯度下降的动量加速、多阶段随机梯度下降的动量加速、非强凸目标优化算法计算复杂度的降低等方面展开研究,完成了以下创新性研究工作:
1.从信息几何领域引入自然梯度下降方法到随机优化中,并从两个角度给出了随机自然梯度下降方法的收敛率分析。首先从随机优化的角度讨论了随机自然梯度下降方法的收敛率,其次在证明自然梯度下降方法与镜面梯度下降方法的等价性后,通过对镜面梯度下降方法的收敛率分析间接得到随机自然梯度下降方法的收敛率结果。
2.结合方差减小的随机梯度下降和二阶随机优化方法,提出了随机方差减小的子采样牛顿(S2NMVR)算法框架。对于许多机器学习问题,子采样牛顿法利用海森-向量乘积技术,使得算法框架在二阶信息的估计上能够降低计算代价。在此算法框架下,本文提出了S2NMVR的两个变种算法S2DNMVR和S2DQNMVR,对于非线性目标函数的优化,最大程度地保留海森信息并降低海森-向量的计算开销。当目标函数是μ强凸和L光滑的,算法取得了线性的收敛率和O((n+L/μ)log(1/∈)的复杂度。
3.在方差减小的随机梯度下降算法基础上,结合Nesterov动量和Katyusha动量加速技术,提出了一种随机双加速的动量方法,其中Katyusha动量的引入用来消除加速算法对批量设定的依赖性,Nesterov动量的引入使得加速算法更加稳定。对于一般随机凸优化问题,证明了算法取得了加速的收敛率和O(n√1/∈+√nL/∈)的计算复杂度。针对稀疏数据的优化问题,提出了基于懒惰更新技术的算法进行迸一步加速。
4.在多阶段的随机梯度下降算法中,提出了基于动量的多阶段SGD加速算法,MAGNET。在多阶段的框架下,算法引入了一种磁铁动量来加速阶段性的SGD方法,消除了基于其它动量加速的SGD更新不稳定性,而且该算法的动量因子选择不依赖于随机梯度的噪声方差和阶段间的误差精度信息。该算法对一般随机凸优化问题,取得了O(√nL/∈+nσ2/L∈)的计算复杂度。
5.对于非强凸目标函数优化问题,提出了一种激进正则规约方法,在多阶段的框架下通过对目标函数增加自适应的正则化项,将非强凸的目标转化为强凸目标优化。理论上,该规约方法消除了计算复杂度的非最优对数因子log(l/E),降低了非强凸目标优化的计算复杂度,使得收敛率的上确界更加紧凑。相对于其它规约方法对初始化正则系数的依赖,该规约方法对正则系数的初始化更加鲁棒。