高效的知识蒸馏方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:czwyaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识蒸馏是一种简单有效的模型压缩方法。该方法利用来自训练良好的教师网络(大型网络)的知识,来辅助学生网络(小型网络)的训练,从而有效提升学生网络的表现。虽然知识蒸馏的相关技术已经比较成熟,但仍然存在很多问题:(1)一般情况下教师网络与学生网络之间存在师生差距,来自教师的知识不能被学生有效地学习,导致学生的效果不佳;(2)教师知识类型探索的相关研究有很多,但是什么类型的教师知识更有利于学生的学习仍然是难点;(3)教师网络中存在的错误信息会对学生网络造成影响;(4)在线蒸馏会导致各个学生之间的差异性越来越小,这种严重的同质化会阻碍学生性能的提升。针对上述问题,本文对知识蒸馏方法进行了深入的研究,主要贡献有:(1)提出自提升特征蒸馏方法。该方法从一种新的角度解决师生差距问题,即利用学生自身的信息来提升学生的学习能力,从而缓解教师和学生的差距。一方面,利用学生的特征做特征集成,使得学生特征更具有判别性,用更具判别性的学生特征去拟合教师的原始特征。另一方面,提出一种新的自蒸馏策略,只利用学生前一轮模型的参数对当前轮的学生参数做再更新,不增加内存占用和前向传播过程。此外,利用Richardson外推法解释了基于自提升的特征蒸馏的有效性,特征集成能提高学生的收敛阶。实验表明,该方法的蒸馏性能明显优于对比的知识蒸馏方法。(2)提出基于对比学习的在线蒸馏方法。针对在线蒸馏中各学生网络同质化严重的问题,将样本间的相似性作为学生之间相互学习的知识,以降低学生之间的耦合性;设计一种新的损失函数来适度地提升学生之间的差异性。此外,将多个学生网络的集成作为教师,剩下的网络作为组长,对组长网络采用额外的自蒸馏损失来缓解师生差距。实验结果表明,该方法有效地提升了学生之间的差异性,且提升了组长和集成教师网络的性能,明显优于其他在线蒸馏方法。(3)提出基于无参损失估计的知识蒸馏方法。针对经典蒸馏损失难优化以及温度超参数难确定的问题,设计四种基于信息归一化的无参损失函数,显著提升了蒸馏效果。此外,考虑到知识蒸馏实质上是学生函数在离散的数据点上拟合教师函数,为了提升数据点的密集度和丰富度,提出类内邻域采样策略,使得学生能够捕获更丰富的教师知识。实验表明,所提出的方法明显提升了学生网络的分类性能。
其他文献
胰腺在葡萄糖代谢和消化中发挥重要作用。然而,胰腺十分容易受到糖尿病、胰腺炎以及胰腺癌的侵害。尤其是胰腺癌,作为一种常见的恶性肿瘤,其发病率在世界范围内逐年上升。胰腺癌的早期确诊率十分低,这是胰腺癌死亡率高的主要原因。胰腺自动分割作为近年来出现的胰腺癌诊断和预后技术,对于辅助医生的诊断、治疗和手术具有重要意义。腹部图像的器官自动分割是医学图像处理中的一个重要研究课题,它包括从计算机断层扫描(Comp
学位
医学影像在现代临床医学中具有不可替代的重要地位。CT成像作为医学影像技术之一,在临床疾病诊断中广泛使用。由于放射科医生工作繁重且CT图像表现复杂,导致医生在阅片过程中人工分析主观性偏高且可能出现漏诊误诊问题。因此研究算法实现从CT图像中自动检测和分割病变区域有重要的临床意义和科研价值。近年来,随着深度学习的高速发展,深度学习与医学影像的结合日益紧密。目前已有许多研究提出基于深度学习的医学影像检测和
学位
采用了一种根据并网点电压跌落深度使逆变器发出一定无功功率,将基于二阶广义积分器(SOGI)的锁频环(FLL)和锁相环(PLL)相结合锁定相位,最终实现低电压穿越的方法,该方法利用SOGI-FLL提取频率信息实现锁频功能,为坐标变换提供相角信息,SOGI的陷波器特性滤除二次谐波,控制正负序电流内环的电流大小,进而控制输出有功和无功的大小,实现低电压穿越。仿真结果表明,该控制策略可以很好地滤除二次谐波
期刊
多觉联动音乐教学法是一种可以调动多种感官参与,发挥学生的视觉、听觉、唱觉、触觉、动觉等之联动效应,运用听、唱、动、说、奏、编、演、舞、创等相互交融的方式去感受和体验审美对象,并加以创造表现的教学方法,在初中音乐课进行实践具有非常重要的价值。本文以义务教育《音乐课程标准》(2011年版)为依据,以初中音乐教学为切入点,以郑州市M中学七年级、八年级学生为研究对象,结合初中音乐课程及研究学校特点,进行多
学位
换脸指生成既带有源图身份特征又包含模板图属性特征图片的任务,换脸在隐私保护、影视娱乐、游戏渲染和其他泛娱乐产品中有很大的应用价值。在过去,换脸依赖于手动操作,需要耗费大量的时间和人力。随着卷积神经网络的发展,出现了基于三维重建的换脸方法和基于生成对抗的换脸方法,换脸基本实现了自动化。但目前的换脸方法依然还有两个问题还没有被解决:(1)如何让换脸结果能准确地保持源图的脸型。(2)如何提升换脸结果的真
学位
为研究DDGS对泰迪犬表观消化率、粪便和适口性指标的影响,选用36只发育良好,平均体重为(2±0.2)kg的12个月的健康泰迪犬。随机分为4组,对照组饲喂基础日粮,添加0%的DDGS含量,试验组各添加10%、15%、20%含量的DDGS,试验正式期为90 d。结果表明,饲粮中随着增加DDGS的含量,犬对干物质、粗蛋白质和有机物的消化率逐渐降低,但未改变犬的粪便质量性状。但鉴于某些宠物食品的消化率仍
期刊
音乐是有声的舞蹈,舞蹈是无声的音乐。初中国标舞特长生的音乐教学是使国标舞与音乐进一步融合的有效途径,通过增强国标舞音乐教学,学生能够更进一步提升音乐素养、丰富音乐情感和提高舞蹈技能。支架式教学模式作为一种暂未在国标舞音乐教学中运用的教学模式,通过创新型融合实践,探索支架式教学模式在初中国标舞音乐教学中的实践路径,得出该教学模式的实质性教学实践效果。在初中国标舞特长生音乐教学课程中,注重学生对于国标
学位
广西是八角的原产地和主产区,是全国最大的八角原料市场,玉林市是广西的重要产区,位于玉林市的广西国有六万林场拥有6.28万亩八角林,是玉林市八角原料的重要产地。广西国有六万林场利用场内八角原料生产茴香油和莽草酸,为了弄清场内不同生长环境、季节及干燥处理等对茴香油和莽草酸含量及品质的影响,本论文以广西国有六万林场的八角为研究对象,使用水蒸气蒸馏法同步提取八角茴香油和莽草酸,采用高效液相色谱法(HPLC
学位
近年来,自动驾驶在学术界和业界都引起了极大的关注。自动驾驶车辆要想在复杂动态的真实环境下安全有效地运行,必须解决其自身的精确定位问题。室外定位可以依靠全球定位系统技术,由于室内环境无全球定位系统信号,地下停车场中自动驾驶车辆的准确可靠定位仍然是一个未解决的问题。尽管现有的一些室内定位方法在不同场景中都具有不错的准确性和鲁棒性,但仍存在一些缺陷,比如需要大量的存储空间和车辆位置的先验信息。考虑到地下
学位
1932年至1934年中共鄂豫皖省委是中共中央为加强根据地建设而成立的地方党组织。鄂豫皖省委成立后,其组织成员和下辖党组织相对稳定。1932年1月至10月,鄂豫皖省委在中央分局的指示下,领导鄂豫皖革命根据地开展日常工作。这一时期,鄂豫皖省委在工作中有许多正确的部署。1932年10月,鄂豫皖中央分局率红四方面军西征,留鄂豫皖省委大部成员在鄂豫皖根据地开展革命斗争。鄂豫皖省委积极制定对敌方针,根据斗争
学位