基于卷积神经网络的Dropout方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:apap4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机软件及硬件的飞速发展,深度学习得以在计算机视觉、自然语言处理、无人驾驶等领域崭露头角。卷积神经网络作为深度学习中最重要的模型之一,在图像分类、目标检测等方向上取得了优异的成绩,但也伴随着诸如过拟合、时间内存开销较大等需要解决的问题。作为最具代表性的正则化方法之一,Dropout方法通过屏蔽部分神经元参与训练的方式有效地抑制了过拟合现象的发生。但在卷积神经网络上,普通的Dropout方法并不会带来网络的性能提升,这是由于卷积神经网络上相邻的神经元具有相近的语义,随机以神经元为单位丢弃会造成无效丢弃。研究人员从这一特点出发,针对性地改进Dropout方法来提升其在卷积神经网络上的表现,其中典型的代表有Spatial Dropout、Drop Block等方法。但我们注意到,这一系列的Dropout方法都会造成一个问题:训练时因屏蔽部分神经元而造成了信息的损失,这是目前Dropout方法无法避免的问题。如何在使网络提升特征学习效率的同时避免信息丢失的发生是一个具有挑战性的问题。针对于这个弊端,我们通过网络的可视化实验发现不同区域的特征图携带的图像信息并不相同,并从中受到启发而提出了全新的基于卷积神经网络的Dropout方法:Drop Reuse。在网络训练中,我们利用特征分割的方式丢弃神经元,再通过使用多个全连接层的方式再利用本应被丢弃的特征,最后将多个损失函数相加以作用于网络的参数更新,从而在强化网络对部分特征学习的同时避免了信息丢失的发生。本文在跨物种图像分类、细粒度图像分类、目标检测等任务上测试了Drop Reuse的性能。实验证明我们的方法可以在CIFAR-10、CIFAR-100、Image Net、Tiny Image Net、CUB-200-2011、Pascal VOC等数据集上使网络性能取得稳定的提升,并适用于诸如Res Net、Pyramid Net、Dense Net、Wide Res Net、Retina Net等不同结构的卷积神经网络。我们还证明了Drop Reuse优于现有的其他Dropout方法及自蒸馏方法,并可以和数据增强、自蒸馏方法相叠加,在现有的正则化方法中具有较强的竞争力。本文还通过一系列的残差实验来探究Drop Reuse的可解释性,我们使用了t-SNE、定量统计等方式对网络进行可视化分析,从而了解我们的算法对网络性能提升的原因所在。
其他文献
随着“中国制造2025”战略的逐步深化,自动化生产和智能化生产具有越来越重要的地位,作为工业基础的数控机床的重要性也在与日俱增,在航空航天领域中尤其如此。在航空制造业中,为了减轻飞机的重量,同时要保证飞机结构的高强度和较长的使用寿命,薄壁零件成为一种极好的选择,已经被广泛应用于航空制造业中。然而由于薄壁零件具有壁厚较小、体积较大、结构较为复杂等特点,数控机床对其进行加工具有较大的难度,难以保证其加
随钻测井是指测井仪器随钻头一起下井工作,在钻井的同时进行测井工作,并把测量结果实时传输至地面,随钻密度测井是其中的代表技术之一,本文的研究内容就是围绕随钻密度测井仪器展开。测井结果的实时性是随钻测井技术独特的优势,但同时也对仪器的实时数据处理能力有着很高的要求。实时数据处理包括对原始数据的计算和存储,二者在工作流程中的关联性越低,数据处理流程的稳定性越高。Flash均衡算法旨在通过一定的策略,使得
随着生物特征识别系统安全性和准确性需求的增加,指静脉识别受到广泛地研究。与其他生物特征相比,指静脉识别自带活体识别,安全性更高,使用更加便捷,因此具有重要的研究意义。随着深度学习技术的发展,指静脉识别算法的效果也在逐渐提高。特征提取是指静脉识别算法的研究重点之一,如何提取具有较好识别性的特征仍然存在挑战。为了提高特征的判别性,本文研究了一种增加特征判别性的损失函数。为了提取更多的语义信息,本文设计
数据包络分析(DEA)是一种评价包含多输入和多输出的样本之间相对有效性的方法,在确定有效以及最优得分的样本这一应用环境中,已被证明非常有效。但是,在应用的时候,此类方法存在两个问题,第一是需要人为设定权重本身或者权重的范围,这会带来了综合评价模型存在任意性的问题;第二是会产生太多的有效样本,这类结果在解释性上与实际存在偏差。本论文针对上述问题,结合回归和分类的思想,对传统的DEA模型分别进行改进。
随着移动智能设备的迅猛发展,基于深度神经网络的智能化应用丰富多样,特别在图像内容检索(Content-Based Image Retrieval,CBIR)、语音识别等领域取得了巨大的成功。数据和服务外包提供了一种经济而高效的应用部署解决方案,然而,从用户和智能分析模型提供者的角度来看,数据以及模型参数都是价值产品,如何利用云服务强大的存储计算能力,同时保障用户敏感数据和模型参数不泄露,成为智能化
随着基于深度学习技术的发展及其应用场景的不断扩展,各种高性能的神经网络模型已经被广泛应用到现实环境中,特别是基于深度学习的目标检测已经被广泛应用于机器人、自动驾驶以及智能家居等领域。但是神经网络模型对于硬件平台的计算能力和存储容量都有较高的要求,很难部署在资源受限的嵌入式设备上。为解决巨大的模型计算量和存储量与嵌入式设备的资源限制之间的矛盾,对模型进行压缩和加速非常有必要,并且这对于将高性能神经网
电磁波电场强度矢量的取向随着时间发生改变的现象称为电磁波的极化,光学领域这一现象通常被称为电磁偏振。在不同的仪器设备中,通过极化状态的转换来得到所需形式的极化波是非常有必要的。早期的极化控制主要通过液晶和结晶体的相位延迟和双折射效应,或采用多层光栅和铁氧体来实现,但基于这些方法设计的结构较为复杂、样品的加工难度较大,而且难以实现微型化和集成化,同时在性能方面也存在频带较窄、模式单一、极化选择性较差
图像分类作为计算机视觉领域的基石,在图像、视频数据爆炸式发展的今天显得尤为重要,并具有巨大的现实意义。深度学习在图像分类领域不断发展,做出了许多巨大突破,与此同时如何再次提升模型准确率、开发模型潜能以适应有限的硬件资源成为了热点问题之一。知识蒸馏作为知识迁移的具体实现手段,在模型压缩领域发挥了巨大作用。本文运用知识蒸馏的自蒸馏思想,优化了网络模型的训练策略,提出了基于训练过程的并联知识迁移训练架构
CT技术作为患者身体检查,诊断疾病的有效手段,已经在临床广泛使用。但CT检查过程中产生的射线对人体带来的伤害却也不能忽视。采用有效的手段可以减少CT检查过程中产生的射线量,比如降低管电压,降低管电流,降低曝光时间,减少采样角度等。但是降低辐射剂量,在CT成像过程中会产生CT图像上不属于组织结构影像的伪影,使图像细节模糊,图像清晰度下降,甚至会影响医生的诊断结果,给患者带来更为严重的危害。近年来,深
多智能体系统是由一群具备感知、通信、计算和执行能力的智能体经过互相关联而形成的一个网络系统。在多智能体系统中,包围控制是指智能体依据所获得的传感器数据,对目标或者目标区域进行环绕运动的一种控制方式,可应用于对目标的搜索、救援、探测、监测等场景下。本文研究了基于方向信息的多智能体包围控制问题。其中,基于方向信息是指智能体所搭载的传感器仅能测得自身和目标之间的相对方向,无法测得自身与目标之间的距离。基