基于多教师同构网络的知识蒸馏算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:dumala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度神经网络在诸多计算机视觉任务中都取得了最先进的成果。然而,网络如此优异表现的背后,往往对应着复杂的结构、高达数百万甚至数十亿的模型参数。训练这些大型网络需要很高的算力和时间成本,并且过参数化模型所带来的巨额部署成本使其在移动设备端的应用受限,在实时性要求高的任务上也没有优势。知识蒸馏是一种有效的模型压缩和知识转移技术,它建立在教师-学生模型框架之上,通过让学生匹配教师模型的输出或有效特征,将大型教师网络的知识转移到相对小型的学生网络中,从而获得一个精度媲美大型网络的轻量级学生模型。然而,传统师生蒸馏框架存在着能力不匹配的困境,随着教师网络规模的持续增大,知识蒸馏后的学生网络的性能表现为先提升后下降。这表明师生模型间过大的能力差距会损害知识蒸馏的效果,容量越大精度越高的教师,其指导出的学生的性能不一定越好。针对传统知识蒸馏的上述困境,本文提出了一种基于多教师同构网络的知识蒸馏算法,MHT-KD,将一个传统大教师替换为与学生结构相同的一组小教师模型,学生模型从教师组联合提供的知识中进行学习。多教师同构的知识蒸馏主要包含两个阶段:在阶段一,分别对教师组的每个子教师成员进行初始化和预训练,保证各教师成员能提供多样化的知识;在阶段二,教师组每个成员同时且单独地向学生网络传递知识,各教师成员与学生之间是一对一的指导关系。由于教师成员与学生同构,缩小了师生间过大的能力差距,知识可在师生间进行有效传递。在多教师同构框架的基础上,本文进一步提出了一种基于教师组自信度的自适应初始化策略。根据教师组在训练过程中的自信程度,自适应地对学生网络使用不同的参数初始化方法。当教师组过度自信时,学生网络使用常规初始化方法,否则将从教师组中选择一位教师成员,使用其全部模型参数对学生网络进行初始化,并完成后续蒸馏过程。为进一步提升学生模型性能,本文设计了一种基于网络分类层的特征相似度损失函数,通过约束网络分类层参数的相似性,来间接影响网络所提取特征的有效性。该损失函数既可应用于基本的图像分类任务,也可与多教师同构蒸馏框架兼容。同构教师组、基于教师组自信度的自适应初始化策略以及基于网络分类层的特征相似度损失函数,这三部分构成了本文所提出的MHT-KD算法。本文在多个图像分类数据集和不同网络模型上进行了大量实验,相比于经典知识蒸馏,MHT-KD获得了显著的学生模型精度提升。相比于其他知识蒸馏算法,MHT-KD也表现出一致的精度优势。本文所提出的知识蒸馏算法,能有效缓解师生模型间过大的能力差距所导致的负面效果,提升学生精度,对研究师生蒸馏框架下的有效知识转移模式具有一定的指导意义。
其他文献
在第五代移动通信和物联网等技术的推动下,边缘计算飞速发展,传统基于云中心的人工智能网络架构出现了本地化的演进趋势。联邦学习作为网联人工智能的新范例,在协同训练和保护隐私等方面具备独特的优势。在联邦学习系统中,全局模型参数的更新依赖于云服务器与边缘节点间频繁的模型信息交互,这将给系统带来大量额外的通信开销和训练时延,已经成为了限制系统性能的关键问题。当前,通过压缩节点模型参数信息以减少节点间的通信开
学位
车联网是智能交通系统(ITS)重要的使能技术之一。随着车联网技术的快速发展,大量计算密集和时延敏感的车载应用不断涌现,车辆对于计算和通信资源的需求急剧提升。一方面,计算资源受限的车辆终端难以满足车辆任务的低时延要求;另一方面,车辆的高移动性导致网络拓扑结构快速变化,频谱资源管理困难。针对上述问题,本文首先研究了车联网中车辆任务的卸载策略,引入移动边缘计算(MEC)技术为车辆提供卸载服务,有效减少了
学位
涡轮发动机作为飞机、车辆或船舶等动力关键设备,其运行状态和可靠性对设备安全和稳定运行起着决定性作用。然而,复杂多变的工作条件,高温高压工作环境等因素导致发动机易出现性能退化甚至失效的问题。在发动机退化早期开展剩余寿命(Remaining Useful Life,RUL)预测并安排合理的维护方案,可以有效避免计划外停机维修造成的损失,提高设备安全性,有效的预测方法对于及时RUL预测至关重要。本文面向
学位
人类文明的高速发展依赖于能源的生产与利用,然而近年来能源短缺,环境恶化,已逐渐成为遏制人类未来发展的重要因素。在能源短缺、全球变暖的压力下,利用和发展新能源,实现电力供应低碳化成为解决这些问题的有效途径,而电动汽车作为新能源的终端设备,数量巨大潜力无限,成为新能源转换的重要应用。除此之外,传统汽车排放大量一氧化碳、氮氧化物和颗粒物,此类化合物已成为酸雨和雾霾的重要来源,且极易引起人类呼吸系统疾病,
学位
参与式预算是地方政府在预算领域的一项代表性创新政策,其关键特质在于赋予普通民众预算参与权,通过“预算协商、民主决策”确保“人民的钱”由“人民说了算”。可持续性是检验政府创新成效的一项重要标准,地方政府参与式预算创新是社会发展转型和公共财政迈向现代化过程中的产物,如何在充满不确定性的现实环境中持续运作与发展是一个十分关键的问题。经过近二十年的实践探索,我国地方政府参与预算创新总体上呈现出较强的空间扩
学位
以深度学习为代表的人工智能技术已经成为推动5G/6G网络智能化的核心驱动力。作为构建智能化网络中不可或缺的一环,无线业务流量预测技术对于提升网络性能、降低网络能耗、提升用户体验具有重要意义。精准的流量预测有助于实现对未来业务需求的动态感知,既为后续通信资源的预分配提供了先验信息,也为网络基础设施的部署与扩容提供了依据,同时还可避免不必要的运营维护成本,为实现绿色通信提供有力保障。分析表明,实际场景
学位
现代汉语中有一种常见的结构“NP的VP”,如:“她的到来”、“孩子的朗读”、“心脏的跳动”、“这几首诗的发表”这一类结构。其中NP指名词、代词或名词性短语;VP指动词、动词短语。学界对现代汉语“NP的VP”结构的研究成果较丰富,但是较少谈及“NP的VP”结构的翻译,文章以此为出发点,主要研究现代汉语“NP的VP”结构在维吾尔语中的表现形式。本文以现代汉语中关于“NP的VP”结构研究已有的分类为基础
学位
在《中国制造2025》这一行动纲领的领导下,电力行业已成为我国走向制造业强国的冲锋号、排头兵,电力系统的安全与稳定也因此关乎着我国发展的大局。电网作为电力系统中极其重要的组成部分,承担着输送与分配电能的重要作用。由于电网的线路往往要穿越祖国大地各处的山川河流,面临着复杂多变的运行环境,在运行过程中会不可避免的因各类因素导致事故。对电网进行故障诊断是处理复杂多变的各类事故的重要前提。随着电网故障诊断
学位
车联网是实现车与万物互联的泛在网络,为智能交通系统(ITS)中的诸多应用提供了重要支撑。随着信息技术的高速发展,新一代ITS中还将涌现大量感知、通信、计算、控制一体化的时间敏感类应用,这些应用高度依赖于情境信息的及时交互,因而对车联网中的信息时效性提出了新的要求。为此,以信息年龄为代表的时效性新度量应运而生,并正在成为车联网时严通信研究中的一项重要指标。在ITS的传统架构中,信息的交互往往通过地面
学位
骨质疏松是一种以骨量降低、骨组织微结构恶化,导致脆性骨折风险增加为特征的骨骼疾病,常发生于绝经后的女性和老年男性。基于双能X线吸收检测法(Dual Energy X-ray Absorptiometry,DXA)的骨密度测量是骨质疏松诊断的“金标准”。但由于公众认识不足,以及基层医疗卫生机构的防治能力有限,导致DXA检测率仍处于较低水平,这严重影响了骨质疏松患者的诊断和治疗。此外,现有的研究大多基
学位