【摘 要】
:
人工智能的快速发展,离不开背后的数学基础研究。机器学习是人工智能研究的重点,机器学习可以归结为对数据集拟合的优化问题,该问题具有高维、非凸的特点。一方面,在高维情形下,计算目标函数的二阶导数Hessian矩阵将变得困难;另一方面,在非凸情形下,鞍点给算法以局部极小的假象,其数量也会随维数的增加呈指数式上升。因此,如何快速地识别并避开鞍点,成为当前高维非凸优化领域研究的热点。随机梯度下降(SGD)是
论文部分内容阅读
人工智能的快速发展,离不开背后的数学基础研究。机器学习是人工智能研究的重点,机器学习可以归结为对数据集拟合的优化问题,该问题具有高维、非凸的特点。一方面,在高维情形下,计算目标函数的二阶导数Hessian矩阵将变得困难;另一方面,在非凸情形下,鞍点给算法以局部极小的假象,其数量也会随维数的增加呈指数式上升。因此,如何快速地识别并避开鞍点,成为当前高维非凸优化领域研究的热点。随机梯度下降(SGD)是机器学习优化领域的一个基础性算法,本文中讨论的算法都是在该算法基础上的改进。扰动梯度下降(PGD)算法对鞍点附近迭代点的梯度加入扰动,使得迭代可以避开鞍点。将SGD和PGD算法融合,在SGD算法的迭代格式中加入梯度扰动项,就是本文中的扰动随机梯度下降(PSGD)算法,该算法的迭代复杂度为O(ε-4d),具有快速迭代和避开鞍点的优点。立方正则化(CR)算法可以解决牛顿法中Hessian矩阵退化为奇异矩阵,以及收敛至鞍点的问题,但该算法需要计算Hessian矩阵。将CR与SGD算法融合,使用随机梯度和随机Hessian来求解CR算法的子问题,就是本文中的随机立方正则化(SCR)算法。该算法无需显式地计算Hessian矩阵,只需计算相应的Hessian-vector积,算法的迭代复杂度为O(ε-3.5)。开源数据集a9a上的逻辑回归模型是一个高维非凸优化问题,利用上述算法对该问题进行数值实验,由实验结果知:SGD算法可能会卡在鞍点处无法继续下降;PSGD算法因为使用了梯度扰动,可以避开鞍点继续下降;相比前两个算法,SCR算法借助了Hessian矩阵信息(通过Hessian-vector积获取),所以能更早地识别并避开鞍点,因此需要更少的迭代次数,有更快的收敛速度。
其他文献
近年来,犯罪人员的作案手段越来越多样,反侦查意识也越来越高,案发现场越来越难发现足量可用于法医鉴定的有价值DNA,因此,不少研究人员都希望能找到可取代DNA的具有高度特异
随着国家基础课程教育改革的不断完善与深入,小组合作学习的教学模式逐渐得到教育研究者们的重视,成为教师开展教育教学工作的重要参考。小组合作学习相较于传统课堂中的教师
对流扩散方程是偏微分方程的一个重要分支,在流体力学、能源开发、环境科学和电子科学等学科上得到广泛应用。介观的格子Boltzmann(LB)方法具有算法简单、易于处理复杂边界和本质并行等特点,使其在求解对流扩散方程时体现出很大优势。本文正是基于双松弛(two-relaxation-time,简称TRT)的LB模型,针对一般的对流扩散方程开展了一系列的研究。首先,本文将原始的TRT模型进行了形式上的简
随机系统在实际工程中的应用十分广泛,它涉及电力控制、经济模型控制、化工过程和生物医学等实际领域。连续时间Markov跳变系统和semi-Markov跳变系统是随机系统的分支,对此类系统的研究和分析能够很好的推动随机系统理论的发展。随着计算机技术的飞速发展,数字信号处理方法逐渐取代了模拟信号处理方法,通过将连续信号转换为离散信号使得系统性能达到更好的指标要求,采样控制以其具有高效性和实用性等特点受到
甲烷作为一种清洁能源,因其较高的储量,而受到国内外广泛的关注。但甲烷燃烧温度较高或反应不充分时,燃烧过程中易生成NOx和CO等污染物,并造成温室效应。解决此现象的根本办
面对大学生择业就业困难的现状,近些年各高校普遍开设了就业指导相关课程,但目前就业指导课程的内容偏重于就业技巧和就业政策等方面的讲授,对大学生就业起更重要作用的职业
随着改革开放的深入推进和社会主义市场经济的建立和发展,拜物教开始以各种形式传入我国,并在大学生群体中不断渗透和蔓延,致使大学生群体中的拜物教现象越来越多。金钱拜物
2018年,我国《刑事诉讼法》新设了有关贪污贿赂犯罪的刑事缺席审判制度,其中为了更好地保护被缺席审判者的人权并更好地与他国进行引渡谈判,我国法律赋予了被缺席审判者以异
为了量化研究桩土及局部场地效应对大跨度铁路斜拉桥的地震响应及抗震性能的影响,本文以某在建大跨度铁路斜拉桥工程为背景,基于通用有限元软件ANSYS,建立该斜拉桥的三维有限元模型,对其动力特性及地震作用下的动力响应进行分析,进而进行斜拉桥主要易损构件的抗震性能验算,对其抗震性能进行评估,得出的结论可为同类型桥梁的抗震设计提供参考意见,具有一定的理论与实践意义。本文主要研究内容如下:(1)基于大型商业有
传统的B/S模式(Browser/Server模式)通信是基于HTTP协议的,而HTTP通信是典型的“请求-响应”模型,因此HTTP协议想要实现浏览器与服务器之间的实时通信显然困难较大。为了有效