论文部分内容阅读
随着互联网、大数据、云计算、物联网等信息技术的快速发展,以深度学习为代表的人工智能技术发展迅猛,在各行各业都取得了前所未有的成功。在过去的十几年中,深度学习吸引了来自学术界和工业界的广泛关注,研究非常活跃,提出了丰富的网络模型,应用于图像处理、自然语言处理、认知科学和通信网络等各个方面。然而,深度学习的理论研究仍处在初级起步阶段,深度学习仍旧缺乏科学理论的根基。深入理解深度学习的内部机理,才能更好地将深度学习应用到各个领域。深度学习理论研究是目前的研究热点,其研究内容主要集中在三个方面:深度学习的表达性能、优化性能和泛化性能。本文主要侧重于理解和分析深度神经网络的优化性能。研究的主要思路是借助深度神经网络的损失平面来探究深度学习的优化问题,并尝试使用数学分析来探究损失平面的几何特性,以尝试揭示深度学习“黑盒子”的内部数学机理。深度学习的损失平面具有大维非凸的特性,数学分析过程较为复杂,所以本文借助了随机矩阵理论这一数学工具对其进行分析,提出了一个基于随机矩阵理论的深度学习优化问题分析方法。首先,利用二阶优化方法中的Hessian矩阵来分析深度神经网络损失平面的几何特性,分析证明Hessian矩阵可以构造成一个样本协方差矩阵,即随机矩阵理论中经典的Wishart矩阵。然后,利用随机矩阵理论中关于Wishart矩阵的渐近分布特性的研究,对Hessian矩阵进行分析,给出了矩阵的极限谱分布、特征值极值分布和标准条件数分布。特征值极值分布和标准条件数都对深度学习的优化过程有重要的影响,揭示了网络收敛与上述分布之间的关系。本文在上述理论分析的基础上进行了大量的实验,主要分析了利用深度学习处理多分类问题。首先是对经典的MNIST手写字符集进行分类处理,给出了网络的精确Hessian矩阵的特征值分布、最大特征值分布和标准条件数分布,实验证明上述分布与理论分布吻合,随机矩阵理论是分析深度学习优化理论的一个有力的数学工具。同时还探究了不同网络结构和收敛过程中的最大特征值变化,构建了最大特征值与网络优化之间的联系,另外利用标准条件数对网络的收敛情况进行分析,发现标准条件数直接影响着网络的优化性能。然后研究了无线通信中的自动调制分类检测问题,利用深度残差网络对复杂通信环境中的多种调制信号进行分类,可以实现较为精准的分类识别结果。同时,本文分析和推导了深度残差网络的Hessian矩阵,为网络进一步的优化提供了理论基础。