论文部分内容阅读
在机器学习领域中,梯度下降算法是求解最优化问题最重要、最基础的方法。随着数据规模的不断扩大,传统的梯度下降算法已不能有效地解决大规模机器学习问题。随机梯度下降算法在迭代过程中随机选择一个或几个样本的梯度来替代总体梯度,以达到降低计算复杂度的目的。近年来,随机梯度下降算法已成为机器学习特别是深度学习研究的焦点。随着对搜索方向和步长的不断探索,涌现出随机梯度下降算法的众多改进版本。将随机梯度下降算法的改进策略大致分为动量、方差缩减、增量梯度和自适应学习率等四种。其中,前三种主要是校正梯度或搜索方向,第四种对参数变量的不同分量自适应地设计步长。着重介绍了各种策略下随机梯度下降算法的核心思想、原理,探讨了不同算法之间的区别与联系。将主要的随机梯度下降算法应用到逻辑回归和深度卷积神经网络等机器学习任务中,并数值地比较了这些算法的实际性能。针对方差缩减策略的两个主要缺点:“梯度僵化”与“忽略历史梯度信息”,提出了动量聚合校正的改进策略。这种策略能将梯度累积方差限制在一定范围内,避免由于梯度更新不足而陷入局部最优解。使用动量聚合校正策略对随机方差缩减梯度下降算法进行改进,提出了一种基于动量聚合校正的随机梯度下降算法MAC-SVRG,并通过理论分析和数值试验证明了这种算法的优越性。非负矩阵分解是随机梯度下降算法的重要应用场景,本文提出了一种基于动量聚合校正的非负矩阵分解算法MAC-SVRMU。这种算法在随机乘性更新算法的基础上结合了动量聚合校正策略,在人工合成数据集和真实数据集下都有较好的性能表现,能够快速、有效地使目标参数逼近最优解。文末总结了本文的主要研究工作,并展望了随机梯度下降算法的未来发展方向。