论文部分内容阅读
对随机经典动量算法(CM)的收敛速度问题进行深入研究,通过对传统带动量随机梯度下降算法的迭代公式进行改造,在非强凸和光滑的条件下得到了算法的收敛阶。当动量系数ρt取常数的时候,收敛阶为O(1/T+√T+1/T),当动量系数ρt取变系数的时候,通过设置不同的学习率,分别得到O(1/√T+2+1n(T+1)/√T+2)和O(1/3√T+1)的收敛速率。最后通过数值实验说明其合理性。