基于Hessian矩阵的深度学习损失平面的优化特性分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:jackyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、大数据、云计算、物联网等信息技术的快速发展,以深度学习为代表的人工智能技术发展迅猛,在各行各业都取得了前所未有的成功。在过去的十几年中,深度学习吸引了来自学术界和工业界的广泛关注,研究非常活跃,提出了丰富的网络模型,应用于图像处理、自然语言处理、认知科学和通信网络等各个方面。然而,深度学习的理论研究仍处在初级起步阶段,深度学习仍旧缺乏科学理论的根基。深入理解深度学习的内部机理,才能更好地将深度学习应用到各个领域。深度学习理论研究是目前的研究热点,其研究内容主要集中在三个方面:深度学习的表达性能、优化性能和泛化性能。本文主要侧重于理解和分析深度神经网络的优化性能。研究的主要思路是借助深度神经网络的损失平面来探究深度学习的优化问题,并尝试使用数学分析来探究损失平面的几何特性,以尝试揭示深度学习“黑盒子”的内部数学机理。深度学习的损失平面具有大维非凸的特性,数学分析过程较为复杂,所以本文借助了随机矩阵理论这一数学工具对其进行分析,提出了一个基于随机矩阵理论的深度学习优化问题分析方法。首先,利用二阶优化方法中的Hessian矩阵来分析深度神经网络损失平面的几何特性,分析证明Hessian矩阵可以构造成一个样本协方差矩阵,即随机矩阵理论中经典的Wishart矩阵。然后,利用随机矩阵理论中关于Wishart矩阵的渐近分布特性的研究,对Hessian矩阵进行分析,给出了矩阵的极限谱分布、特征值极值分布和标准条件数分布。特征值极值分布和标准条件数都对深度学习的优化过程有重要的影响,揭示了网络收敛与上述分布之间的关系。本文在上述理论分析的基础上进行了大量的实验,主要分析了利用深度学习处理多分类问题。首先是对经典的MNIST手写字符集进行分类处理,给出了网络的精确Hessian矩阵的特征值分布、最大特征值分布和标准条件数分布,实验证明上述分布与理论分布吻合,随机矩阵理论是分析深度学习优化理论的一个有力的数学工具。同时还探究了不同网络结构和收敛过程中的最大特征值变化,构建了最大特征值与网络优化之间的联系,另外利用标准条件数对网络的收敛情况进行分析,发现标准条件数直接影响着网络的优化性能。然后研究了无线通信中的自动调制分类检测问题,利用深度残差网络对复杂通信环境中的多种调制信号进行分类,可以实现较为精准的分类识别结果。同时,本文分析和推导了深度残差网络的Hessian矩阵,为网络进一步的优化提供了理论基础。
其他文献
三峡库区是长江中下游重要的森林生态系统,但该地区长期存在酸雨问题。酸雨会导致湖泊河流水体酸化,阻碍水生动植物生长,导致森林退化,使其生产力降低。此外,库区降水的化学成分正在逐渐改变,酸雨类型正在向混合型以及硝酸型酸雨转化。本研究选取该地区典型树种马尾松、杉木、青冈和毛竹作为研究对象,结合三峡库区的酸雨特征,通过模拟不同浓度(pH=2.5、3.5、4.5)和不同类型(硫酸型、混合型和硝酸型)的酸雨实
大数据、大模型为人工智能的飞速发展奠定了坚实的物质基础,也提出了新的技术挑战,单机训练已经远远无法满足其对计算能力与存储资源的需求。分布式机器学习利用计算机集群中
沟眶象Eucryptorrhynchus scrobiculatus Motschulsky与其近缘种臭椿沟眶象E.brandti(Harold)在我国广泛分布,两者寄主单一,主要钻蛀危害臭椿Ailanthus altissima(Mill.)Swin
本论文主要研究Linux操作系统中的取证方法,分析Linux系统的管理方式,包括磁盘的管理、扩展文件系统的管理和内存的管理。首先通过分析MBR和GPT等格式的磁盘得到磁盘的具体结
近年来,随着海洋强国战略的不断推进,建立全方位、完善的监测系统对海底进行全方位的观测势在必行。要实现在足够大的空间和时间尺度上收集尽可能多的物理信息,需对海洋物理
随着信息技术和人工智能的快速发展,计算机的数据处理能力得到了显著的提升,支持了从二维图像向三维模型的转型。三维建模的应用场景非常广泛,例如在化工领域,通过自动化场景
研究山区复杂地形条件下雷电电磁场的传播特征及其耦合效应,可为闪电定位算法修订、电力系统线路防雷设计等方面提供重要的理论参考。本文基于二维时域有限差分法,引入共形网格技术来对山体地形进行精确建模,在此基础上,首先讨论单个山体以及多山体地形条件下的雷电电磁场传播特征,并以云南昆明地区为例,分析真实地形对雷电电磁场及闪电定位精度的影响;其次结合场线耦合模型进一步计算雷击山体情况下垂直和水平结构多导体架空
伴奏制作是音乐工作中非常重要的元素之一,而和弦编配是伴奏制作的关键环节,通常需要较多的音乐天赋和深厚的乐理知识才能胜任。目前该工作大多交由人工来完成,单调枯燥且门
随着社会经济的飞速发展,人与人之间的交互行为愈加频繁,每个人都不是生活在自己“孤岛”上的独立的“自然人”,而是与社会有机联系的“社会人”。法律为了适应社会的这种进
近些年来,卷积神经网络在许多与计算机视觉相关的任务(如目标检测和图像识别)上均取得了显著的成就。但是多数卷积神经网络的优异性能都以计算和内存成本的显著增加作为代价,