【摘 要】
:
自然语言信息是人类社会基础的交流载体,大量的信息交流以文字作为传播媒介,进入信息时代后,在海量的文本信息基础上衍生出了多样的自然语言处理任务,深度学习在处理自然语言任务上表现出优异的性能。近几年来出现的预训练语言模型更是自然语言处理研究方向上一个里程碑式的研究进展,但是随之而来也有很多问题,网络模型臃肿,过参数化特性,都极大地限制了语言模型实际的应用落地,也提高了学术研究的门槛,因此在预训练语言模
论文部分内容阅读
自然语言信息是人类社会基础的交流载体,大量的信息交流以文字作为传播媒介,进入信息时代后,在海量的文本信息基础上衍生出了多样的自然语言处理任务,深度学习在处理自然语言任务上表现出优异的性能。近几年来出现的预训练语言模型更是自然语言处理研究方向上一个里程碑式的研究进展,但是随之而来也有很多问题,网络模型臃肿,过参数化特性,都极大地限制了语言模型实际的应用落地,也提高了学术研究的门槛,因此在预训练语言模型上的网络轻量化研究工作显得非常有价值。国内外学者针对预训练语言模型的轻量化进行了大量研究,但是现有的大部分研究没有区分语言模型预训练阶段和微调阶段,进而导致了网络轻量化过程仍然需要较大的计算代价。现有工作对于知识蒸馏过程中学生网络和教师网络提取到的抽象特征之间的差异缺少研究,缺少对知识蒸馏过程中噪声的建模,使得学生模型在恢复原始模型的推理能力和自身压缩率上存在不可调和的矛盾。本文针对现有问题提出了以不确定性估计驱动的基于知识蒸馏的预训练语言模型压缩方法,建模了知识蒸馏过程中存在的噪声,提高了知识蒸馏过程的效能,使得语言模型能够在具体下游任务中得到快速部署应用。本文的主要工作和创新点包括:1.针对现有语言模型轻量化过程中缺少对原始模型的性能保留,我们提出了一种新颖的应用于Transformer网络结构的知识蒸馏方法。具体来说,通过对教师网络进行合理的模块参数复制和模块知识蒸馏,统一了学生模型在具体下游任务上微调和知识蒸馏的两个网络训练过程,使得网络参数的再训练仅在微调阶段进行,减轻计算负担的同时性能精度损失较少。2.针对知识蒸馏过程中存在教师网络和学生网络特征差异这一问题,本文设计一个不确定性估计模块(Uncertainty Estimate Module,UEM),通过这个新的网络分支来估计网络提取到的特征的不确定性,以高斯分布建模知识蒸馏中存在的噪声,估计特征分布的均值和方差,借此来指导知识蒸馏过程,使得学生模型能够更好地模仿教师模型的特征抽取过程,提高了知识蒸馏的效率。3.本文将提出的语言模型压缩方法在BERT网络上进行了轻量化,并将轻量化后的小型网络应用于实际的文本检索问题,通过网络轻量化和多阶段来提高检索速度,通过语言模型解决文本检索问题中语义理解问题,最终搭建了一个基于轻量化语言模型的多阶段论文检索系统。本文提出的结合不确定性估计的知识蒸馏方案为预训练语言模型的轻量化提供了新的解决方案,与同类网络压缩方法的比较中有较为明显的优势,同时也带来了一种语言模型知识蒸馏的新视角。
其他文献
移动自组织网络(Mobile Ad Hoc Network,MANET)是由一组自治的设备或者节点组成的即时性的网络系统,具有不依赖基础设施、易部署、无中心、自组织、高动态等特性,可以不受时间、空间及环境等因素的限制为用户提供有效的通信服务。MANET广泛应用于军事、日常生活及抗险救灾等领域,既可以独立成网也可以与因特网(Internet)、物联网(Internet of Things,Io T)
随着芯片集成度的提高和片上系统(SOC)的发展,电源噪声和不同模块之间的干扰变得非常严重,需要干净的电源电压来为这些模块供电。低压差线性稳压器(Low Dropout Regulator,LDO)因为其较低的电路噪声以及较高的电源抑制比,成为了为这些模块供电的主要选择。本文针对双同步低压降型DC-DC控制芯片的研发需求,选用SMIC 0.13μm CMOS工艺设计一款高电源抑制比的无片外电容LDO
行人重识别技术可以搜索特定行人,被广泛用于现在的智能视频监控系统中,辅助人们抓捕罪犯或寻找失踪人员。遮挡行人重识别任务的提出主要是由于现实世界中行人往往被各种遮挡物所遮挡,极大地影响了模型匹配的精度。目前针对遮挡行人重识别任务的工作依旧面临巨大的挑战,早期的大多工作只关注人体匹配并未考虑遮挡问题,后来出现了基于局部特征的方法,使得模型的泛化性能有所提高,但这类方法大多需要严格的行人对齐,严重遮挡下
随着互联网在世界范围内的快速普及以及海量图像和视频数据的日益增加,如何利用人体分析相关的智能算法处理这些数据已经成为互联网向智能化方向转变的关键。本文研究的单人体姿态估计任务是各种人类行为分析任务的基础,其主要目标是检测人体的姿态,而人体关节具有极大的自由度,且在实际场景中极易被自身或者其他物品遮挡,因此需要更鲁棒的人体姿态检测算法。目前,单人姿态估计任务多数是基于卷积神经网络来提升人体姿态检测的
遥感图像场景分类是根据遥感图像的语义信息对其进行分类,在很多领域都有广泛的应用。随着深度学习的发展,基于深度神经网络的场景分类方法取得了很好的效果。然而,一个优秀的遥感场景分类深度学习模型的训练需要大量的标注样本,而遥感样本的标注往往十分困难。此外,这些模型只能对训练集中出现的场景进行分类,对训练集中未出现的新类别的扩展性较差。为了解决上述问题,一些学者开始研究小样本遥感图像分类方法,其目的是在只
低碳产业是在全球气候变暖、生态环境日益恶化的大背景下提出的一种新型产业发展模式,它是以低能耗、低污染、低排放为基础的产业;产业集群是围绕某一产业由众多相关企业及其支撑体系,在一特定区域内集聚发展,并形成整体竞争优势的经济群体;低碳产业集群是低碳经济时代产业集群发展的方向,也是提升绿色竞争力的有效途径。文章对产业集群的概念、理论进行了梳理,对低碳产业集群的内涵、特征、作用进行了总结,对低碳产业集群的
目的:探讨与分析脊髓外科手术术后精神障碍患者发病影响因素及抑制性神经递质水平、神经营养因子表达变化情况。方法:选择2016年9月到2021年5月本院完成脊髓外科手术的患者83例作为研究对象,检测血清抑制性神经递质水平、神经营养因子(NTFs)表达水平。所有患者都给予抑郁自评量表(SDS)调查、执行功能行为评定量表成人版自评问卷(BRIEF-A)评分并进行相关性分析。结果:83例患者术后平均SDS评
多源遥感图像配准是图像处理领域的关键技术,其主要作用是对同一地物表现,利用非同时、非同一成像传感器或者非同一视角进行拍摄所得到的两幅或两幅以上的图像数据进行实际空间地理位置上的对齐。而随着现代科技的发展,多源遥感图像数据获取的途径也随之增多。多源遥感图像的精确配准不仅能够将图像的优势信息相结合,也为图像融合、目标识别检测等图像处理奠定了一定的基础,因此研究多源图像配准技术具有重要的研究意义。论文通
频率稳定度高的激光在光频准、精密光谱和引力波探测等精密测量领域有着重要的应用。由于激光频率的稳定性直接影响着精密测量的精度,因此对激光稳频技术的研究具有重要的意义。饱和吸收稳频方法以高稳定的原子或者分子跃迁谱线为参考频率,具有成本低、频率稳定度高和复现性好的特点。本文在传统饱和吸收谱稳频的基础上通过数字电路对其反馈环节进行优化,设计了一款低成本小型化的激光稳频系统。与传统饱和吸收稳频系统相比,该系