【摘 要】
:
神经网络在诸多应用领域展现出了优异的性能,这很大程度上依赖过度参数化的模型结构,以及各类数据增强技术提供的数据量保证。在此发展趋势下,神经网络的损失表面愈加复杂,仅通过最小化训练损失已经无法保证模型的泛化性能。对神经网络的泛化误差与收敛点特性展开研究,设计更高效的性能提升算法尤为重要。统计学习理论通过假设空间与样本数量构建泛化误差上界,虽然无法完整解释神经网络的泛化性能,但此类理论具备重要的指导意
论文部分内容阅读
神经网络在诸多应用领域展现出了优异的性能,这很大程度上依赖过度参数化的模型结构,以及各类数据增强技术提供的数据量保证。在此发展趋势下,神经网络的损失表面愈加复杂,仅通过最小化训练损失已经无法保证模型的泛化性能。对神经网络的泛化误差与收敛点特性展开研究,设计更高效的性能提升算法尤为重要。统计学习理论通过假设空间与样本数量构建泛化误差上界,虽然无法完整解释神经网络的泛化性能,但此类理论具备重要的指导意义。本文基于统计学习理论分析神经网络的实验结果,针对收敛点锐度和决策函数平滑度,展开对神经网络泛化性能的研究,并提出了两种新的性能提升算法:Equilibrium Ensembles(EE)算法、Equilibrium Ensembles V2(EEV2)算法。主要创新点与工作贡献如下:(1)通过对PACB-Bayes边界定理的实验验证,发现收敛点的抗扰动能力与锐度相对应,锐度越小,模型的鲁棒性越强,其泛化性能越优异;此外,通过对数据集中的数据样本计算欧氏距离可以发现,分类数据集都具备类间距离远、类内距离近的数据特点,故通过统计数据集中不同类别数据样本的累计损失值,可以衡量模型的泛化性能。基于上述实验发现,本文提出了EE算法,通过动态损失权重为每个子模型构建不同权值分布的训练数据,并设计了训练边界针对性地收集具备平衡类别训练损失的子模型,最后将所有子模型显式集成实现模型的泛化性能提升。(2)通过对Rademacher复杂度的实验验证,发现即使假设空间很复杂,梯度下降算法也可以依方向性地搜索到决策函数,并且决策函数的平滑度也对应了模型的鲁棒性,低损失的平滑决策函数具备更优异的泛化性能;此外,由于局部最优点、困难样本等因素的影响,决策函数的权值容易波动,造成决策函数不平滑,进而影响泛化性能。基于上述实验发现和之前研究经验,本文提出了EEV2算法,不增加模型参数量,不改变模型结构,具备更优异的性能提升和普适性;通过周期性学习率衰减策略,在基础模型上训练得到多个子模型,每个子模型分别对应不同权值的决策函数,使用算术平均对所有子模型进行参数的隐式集成;虽然算术平均可以缓解权值的波动,但算术平均容易受到极大值或极小值的影响,并且局部最优点之间往往是高损失区域,所以本文在训练子模型的损失函数中设计了惩罚项,其具体形式是以基础模型和子模型的输出分布计算双向KL散度,通过此惩罚项可以有效地限制子模型与基础模型的参数差异。对以上两个算法进行实验,证明EE算法可以有效地平衡训练损失的离散程度;EEV2算法可以有效地提升决策函数的平滑度。两个算法在CIFAR数据集上,对大多数主流网络模型实现显著性能提升。
其他文献
为了保证无线通信系统中信息传输的可靠性,常采用信道编码技术纠正由信道引起的数据传输错误。作为成熟的信道编码,Turbo码因为纠错性能逼近Shannon极限,广泛应用于多种通信标准。在串行Turbo码译码器的设计中,通常基于两个分量译码器相互交换彼此的软信息进行迭代译码。由于能量受限的局限性和迭代译码算法的依赖性,串行译码算法的译码速率和吞吐量均被限制。在并行Turbo码译码器的设计中,译码算法的依
近年来,双向联想记忆(Bidirectional Associative Memory,BAM)神经网络,因其双向连接结构而受到广泛关注。由于这种结构特征,BAM神经网络在人脸识别、语言理解和序列学习等许多应用中都具有出色的性能。这些应用在很大程度上依赖于BAM神经网络的动态行为,这使得BAM神经网络动力学行为成为研究热点。在生物神经系统中,扩散现象广泛存在,扩散现象会使得神经网络产生更加丰富的动
随着网络技术的不断发展,由智能手机带动的移动媒体逐渐影响人们的生活方式,人类的社交方式也在发生巨大的改变。5G时代的来临,短视频行业异军突起,其用户规模和用户渗透率也在逐年攀升,短视频已日渐成为重要的社交媒介和电商销售渠道,并逐渐占领市场。由于短视频属性复杂,用户对语言的规范程度存在差异,致使平台上出现了大量语言不规范的现象,破坏了汉语的规范性和标准化传播。自短视频开启电商销售模式后,此种现象愈演
混合自由空间光-射频(Free Space Optical-Radio Frequency,FSO-RF)通信能够同时拥有FSO的超高信道容量、无需频谱许可、抗干扰能力强,以及RF的覆盖范围大、广播特性之优势,近年来受到广泛关注,并被认为是面向未来网络最具潜力的技术之一。为了进一步提高频谱效率,支持多用户共享时频资源的非正交多址接入(Non-Orthogonal Multiple Access,N
人工智能在自然语言处理、知识表示、自动推理、机器学习等方向上的长期发展使其具备了知识采集、整理、传输、存储、分析、呈现和应用上的天然优势。人工智能与教育的结合,能够解决教育资源在时间和空间上的分配不均,以其在知识记忆、复述和再现上的优势减少教与学双方的低层次教学投入。此外,人工智能采用机器学习的方法,辅助教与学双方对学习过程信息的理解,这既有利于教育工作者提升教学设计质量,也有利于学习者提高学习效
利用我国33个大中小城市2005—2018年的面板数据,从房地产投资、房地产消费、房地产开发企业规模3个方面选取11个指标,采用熵值法计算得到房地产经济综合指标,并构建静态与动态面板模型,探究人口流动对房地产经济的影响机制。实证结果表明:静态面板模型与动态面板模型回归结果均显示,全国层面人口流动对房地产经济发展具有显著的正向影响;静态面板回归结果显示,人口流入较快地区的房地产经济水平提高显著,而人
在信号处理领域中,压缩感知(Compressed Sensing,CS)作为一种新的信号处理框架,与传统的奈奎斯特(Nyquist)采样相比,仅需要较低的采样率就能还原出成原始信号。CS的提出不仅解决了传统采样中压缩与采样分开进行的问题,还极大地减少了信息的采样频率、信息存储以及传输代价的需求。CS理论表示对可压缩或者具有稀疏性的信号,可以通过一定条件下的观测矩阵映射到低维空间上,最后通过优化算法
人们的内心情感往往通过面部表情直观地体现出来,面部表情是人类进行情感交互的一种重要方式。在日常生活中,可以通过肉眼轻易观察到的表情称为宏表情,其持续时间在0.5秒到4秒之间。宏表情的发生可以被人类自主控制用以掩饰内心真实情感,在一定程度上具有欺骗性。然而,人们在掩饰真实情感过程中,难以避免地会在瞬间泄露出无意识的面部表情,将这种十分短暂、微弱的面部表情称为微表情。微表情作为一种自发式的情感表达方式
随着无线通信基础设施和服务需求的不断增长,通信业务也逐渐从单一化的语音形式转变为多样化的图像、数据、视频等多种形式。然而,有限的射频(Radio Frequency,RF)频谱资源很难满足人们对带宽日益增长的需求。另一方面,自由空间光(Free Space Optical,FSO)通信作为短距离高速率传输数据的有效手段获得了广泛的研究关注,因为与传统的RF通信相比,它具有高带宽、大容量、高安全性、
自适应滤波器因其能够根据不同类型的输入信号自适应调整系统参数,输出期望的滤波结果而被广泛应用在自动控制、生物医学检测、雷达系统等实际工程领域。从实际应用方面出发,系统所处的噪声环境并不满足单一的高斯统计特性,而是非高斯噪声环境居多。所以在算法设计过程中仍主要以非高斯噪声为背景建模。基于变量之间的相似性度量方法为确定数据系统与学习模型之间的关系提供基础。二阶误差准则的相似性度量在应对高斯环境时具有良