基于助教元模型的知识蒸馏算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:ly518888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人工智能快速发展的今天,离不开深度学习在各个应用领域的广泛应用与研究,但随着深度学习的不断发展,致使许多大型深度模型以及集成模型不断出现。这为神经网络在对实时性要求高的任务中使用,以及在资源有限设备上的部署留下不小难题。知识蒸馏作为现在深度神经网络模型压缩的主流方法之一,其主要通过让小模型在预训练大模型的监督信号引导下,接受来自预训练教师大模型的知识辅助训练,以达到用更少参数的小模型得到接近大模型精确度的目的。对知识蒸馏课题的深入研究对深度学习今后的发展,以及在实际中更广泛地应用具有重要意义。在图像分类任务中,目前基于特征图知识类型的卷积神经网络压缩存在如下问题:(1)未考虑教师模型特征图中与输出结果无关的混淆因素对学生模型训练带来的负面影响;(2)忽略了教师模型特征图全局统计特征知识的迁移,并且教师模型无法根据学生模型的实时训练状况对所传递知识做出适当调整;(3)在教师模型到学生模型的知识迁移损失函数上,学生模型对教师模型特征参数全拟合的策略缺少类间差异性信息的指导。针对上述存在的问题,提出基于助教元模型的知识蒸馏算法。该方法主要分为:特征图因果关系特征选择,全局统计特征提取与迁移,特征参数的类间差异性拟合三部分。(1)根据教师模型特征图输出与数据集标签通过因果学习计算,获得特征图各像素特征的因果贡献比重,选出对数据集标签具有因果效应的像素特征。(2)通过离散余弦变换(Discrete Cosine Transform,DCT)提取特征图的频域特征作为全局统计特征知识,并借鉴元学习算法(Meta Pseudo Labels,MPL)对教师模型参数的更新方式,使教师模型根据学生的在验证集上的表现更新自身参数,达到根据学生模型训练情况动态修改所传递频域特征知识的目的。(3)对上一步所提取的各类别全局统计特征进一步使用Logistic回归分类模型提取类间差异性信息,将分类器的相关系数作为知识迁移损失项的拟合权重。本文在CIFAR-10,CIFAR-100以及ILSVRC2012,三个图像分类数据集上进行了实验验证,并加入基于特征图知识,基于输出知识以及元学习算法等七种方法作为对照实验。实验结果表明,本文提出的方法比对照实验中表现最优的算法在数据集CIFAR-10与ILSVRC2012上有0.16%的精度提升,在数据集CIFAR-100上有0.12%的精度提升。
其他文献
报纸
互联网平台的迅速崛起为民众提供了发表观点的场所,评论文本中蕴含着丰富的主观情感倾向,文本情感分类研究受到广泛关注。目前,深度学习技术凭借优秀的特征捕捉能力,逐渐成为文本情感分类研究的主流方法。然而,部分基础模型特征提取能力单一,导致特征表示不够全面。同时,复杂的模型结构意味着繁琐的参数调节过程。针对深度学习方法存在的问题,本文以文本情感分类任务为切入点,构建基于混沌狮群优化的情感分析模型和多尺度语
学位
无线传感器网络作为一种新型的监控方式,可对周围环境进行监测和数据采集,是物联网的重要组成部分,已广泛应用于各个领域。由于无人机具有易部署、灵活性高、机动性强等特点,使用无人机收集传感器监测的数据可以减少延迟,增强无线传感器网络的可持续性。然而,无线信道的广播特性增加了无线通信被窃听的风险。为使监测数据和敏感信息不被泄露,无线通信的安全问题必须得到保障。然而,现有工作在保护无线通信安全的同时均未考虑
学位
智能规划是人工智能研究的主要领域之一,其使用自动化的过程处理现实中的规划和调度问题。随着规划问题的不断复杂化,出现了具有不确定性因素的规划问题。这类问题很难使用原有的智能规划技术求解,这时就出现了概率规划。概率规划作为智能规划的一个分支,弥补了智能规划在求解不确定性问题方面的不足,并逐渐成为研究的热点。概率规划能很好的支持动作的并行性和动作的不确定性。但这些特性会导致随着状态变量个数的增加,状态数
学位
在共乘场景中,具有相似出行路线和相近出行时间的多名乘客一同出行,能降低出行的成本和缓解交通拥堵。同时,减少实际所需的车辆数目能减少用于交通运输的能源消耗。然而现有的共乘研究大多忽略了提供接载服务的车辆的收费标准不一致对乘客出行服务质量的影响。本文针对共乘平台能实时接收共乘出行请求的场景,研究司机与乘客之间的匹配问题。由于司机与乘客双方都存在策略的选择,本文将双方的匹配过程构建为一个主从博弈的过程。
学位
针对一类电磁感应现象的独特过程(自感现象的暂态过程)给出了教学实施案例和简要评析,以期给同行参考。
期刊
单张图像超分辨率(Single Image Super-Resolution,SISR)是根据低分辨率图像重建高分辨率图像的操作,是计算机视觉方向里一个重要分支。它也是医学图像、监控和安全等实际领域被广泛使用的图像处理手段。图像超分辨率既可以增加图像的视觉效果,也可以在其他计算机视觉问题中,提高程序的性能。在最近几年,由于深度学习的进步,由深度神经网络构建的图像超分辨率模型得到了积极探索。这些图像
学位
近年来,许多新兴的应用基于深度神经网络为移动终端提供视频分析服务,例如增强现实、人脸识别、智能摄像等等。然而,这类应用通常需要大量的计算资源以提供支撑,远超终端设备的处理能力。将视频分析任务卸载到云端/边缘服务器是近年来解决该瓶颈的一个研究方向。上述研究方向有如下两种研究视角:从终端的视角出发,需要研究视频帧的传输配置,例如分辨率、码率和采样率等等,以最大化该终端能够获得的视频分析精度;从视频分析
学位
近年间得益于强大的硬件计算性能和深度学习的蓬勃发展,以BERT为代表的自然语言模型陆续登上舞台,其在GLUE、SQu AD和RACE等自然语言处理测试任务集上取得了SOTA的优异成绩。与此同时,在通用领域上取得优异成绩的BERT模型却因受限于预训练过程中的语料规模,训练过程中缺少专业领域的事实知识,导致其准确度性能在专业领域中受到限制。目前已有学者提出知识增强型BERT模型,通过引入外部专业知识改
学位
微表情是在人们想要隐藏真实内心情绪,无法伪装和抑制的情况下产生的自发情绪,微表情识别在国家公共安全、临床诊断、审讯等领域具有广泛的应用前景。但微表情是面部肌肉的一种局部小幅度动作,通常只持续半秒,肉眼很难直接检测或识别。因此,需要实现微表情分析与识别的自动化。相较于传统手工特征描述的微表情识别方法,使用卷积网络的深度学习方法以端到端方式集成特征自动提取和分类,在微表情识别领域取得更好的识别性能。卷
学位