自注意力神经网络模型的轻量化研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:andyylaopo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于自注意力机制的神经网络模型在机器翻译、自然语言推断、情感分析、文本摘要和问答等自然语言处理任务上取得突出的成绩,同时也被广泛应用于图像分类、目标检测、语义分割和图像生成等计算机视觉任务,作为各种预训练模型的核心架构,业已成为深度学习中主流模型之一。但是,自注意力神经网络模型具有参数量庞大、计算成本高昂等问题,这使得它难以被部署到如智能手机等端侧设备上,很大程度上制约了它的应用场景。因此,压缩自注意力神经网络模型对于扩展其应用场景具有重要意义。本文主要研究对自注意力神经网络模型“基于Transformers的双向编码器表示”(Bidirectional Encoder Representations from Transformers,BERT)的压缩方法,旨在不损失模型准确率的前提下尽量缩小模型大小,降低模型的推理计算开销,实现模型的轻量化,研究内容包括以下两点:(1)针对模型大小过大难以与移动应用整合的问题,本文创新性地提出从多目标优化的角度建模自注意力神经网络模型压缩问题,分别把模型大小与模型准确率作为两个优化目标以实现在尽可能不牺牲模型准确率的情况下把模型压缩到最小。该方法运用有损压缩算法Squeeze(SZ)压缩模型权重参数,利用多目标优化算法来优化SZ算法的压缩配置。在通用语言理解评估的6个分类数据集上的实验表明该方法最小能把模型压缩至5.6 MB,压缩比高达74.7,远优于其它方法。(2)针对推理计算成本高的问题,本文提出了基于早停机制与量化的联合压缩方法。该方法不追求更低比特数的量化,而是在8位整数量化的基础上引入了早停机制,它用更快的整数运算替代浮点数运算进行推理,并且可以提前退出计算,实现推理加速的目的。另外,为了缓解该方法对模型准确率的损伤,本文还针对性地提出了三阶段微调。实验结果表明本文方法能够在保持准确率的同时有效降低模型计算成本,在通用语言理解评估数据集上取得2.5倍的加速比。
其他文献
随着我国经济迅速发展和对于航空运输的需求增加,全国各地不断地兴建机场,同时吞吐量也随之增加,机场航站楼的规模逐步扩大。而机场航站楼作为民航客流的集中区域,存在大量的人群聚集,航站楼内部设备设施繁多、空间布局也日益复杂,人员密集、旅客流动性大、内部路线也错综复杂,一旦发生突发事件可能会导致大规模人群疏散,甚至人员伤亡、巨大财产损失以及对社会产生不良影响。且发生突发事件后,人员在恐慌、从众、冲动等心理
学位
飞机作为人们日常生活中最便捷的交通工具之一,其安全性是社会持续关注的重要问题。而火灾作为民用飞机的主要事故因素之一,一旦发生事故就会造成极端恶劣的社会影响。民用飞机属于人员密集型封闭空间,在追求优异灭火性能的同时,还要综合考虑哈龙替代型灭火剂喷射后对环境以及人体健康和安全的影响。为了保证人体在使用时的安全性,对其进行毒理测试是必不可少的。目前,对于灭火剂毒性评价,最常见的方法就是动物测试,大多研究
学位
农民住房财产权抵押贷款是进一步促进城乡融合、加快解决“三农”问题的重要手段。在农村闲置住房不断增加、融资需求不断增长,而农民住房财产权抵押贷款的推行却明显受阻的现实背景下,厘清农民住房财产权抵押贷款推行中的困境,提出能有效摆脱困境的对策建议具有重要意义。因此,本研究在承接“完善农村产权抵押担保权能”的国家城乡融合发展试验区——广东广清接合片区中,选择英德市连樟样板区作为调研区,研究农民住房财产权抵
学位
在新冠疫情影响之下,航空客座率具有较大波动性,机票超售作为销售策略可以为航空公司实现增收避损目的,但旅客与航空承运人就超售引发的纠纷及诉讼仍然时有发生。《民法典》确立习惯的法源地位后,反思机票超售行为从起源如何演变为航空活动习惯行为,通过理论分析与实证分析,文章论证了机票超售行为存在的现实意义,其中对航空公司是如何将其作为商事习惯广泛使用,以及司法机关如何处理超售纠纷的问题为引导,以机票超售处置流
学位
碳纤维增强树脂基复合材料具有重量轻、高比强度和高比刚度、抗腐蚀性能好等优点,已在航空航天、汽车等领域中广泛应用。铝合金是目前航空、航天、汽车等领域应用最广的材料之一,复合材料与铝合金的连接不可避免。复合材料与铝合金常用的连接方式有机械连接、焊接和胶接等方式,与其他连接方式相比,胶接连接具有无电偶腐蚀、重量轻等优点。但是CFRP表面树脂与铝合金表面氧化层化学惰性较高,在制造过程中也易受到化学试剂、灰
学位
民为国基,谷为民命。粮食安全是关系国计民生的重大战略性问题,是国家安全的重要基础,而耕地资源是粮食生产的重要载体。随着中国工业化和城镇化的快速推进,各地区耕地资源“量减质降”的趋势日益突出。此外,部分地区出现了耕地“非粮化”的倾向,并成为影响粮食生产能力的隐性威胁。在当前全球疫情蔓延、气候灾害加剧、粮食贸易封锁等背景下,如何有效遏制耕地“非粮化”的态势,成为新时代保障国家粮食安全亟须解决的关键问题
学位
航空冷链物流行业中存在装备落后、“断链”现象多发等问题,并且航空冷链物流对安全性的要求比公路、铁路、水运冷链物流更高。但是当前缺乏关于航空冷链物流装备安全性的相关研究。针对上述问题,分为两步进行研究,第一步是构建航空冷链物流装备体系,第二步是对航空冷链物流装备体系进行风险评估研究。首先,借助美国国防部体系结构框架Do DAF,对航空冷链物流的背景、目的、任务、能力需求、系统结构等要素进行了分析和描
学位
民航强制报告事件信息包含了大量运行过程中产生的风险信息,是发现并纠正当前潜在系统缺陷、改善航空安全的重要依据。目前对中文民航事件信息内容利用主要是统计分析及应用,对其进行深入综合分析挖掘还有待加强。针对大量的非结构化文本数据,基于文本挖掘技术高效、深入地获取信息核心内容,挖掘潜在风险信息和潜在规律,形成具有指导意义、可视化知识对于挖掘事件信息中的潜在安全风险因素具有重要意义。本文以2017-202
学位
空中停车作为民航核心管控风险,已成为造成我国运输航空征候的主要原因之一。准确地评估空中停车风险,探究风险演化规律,可以为航空公司采取针对性的风险管控措施提供决策,从而降低并控制空中停车风险。首先,运用文本挖掘R语言提取影响民航空中停车的机械因素,以此作为民航空中停车贝叶斯网络节点;运用事故树分析贝叶斯网络节点之间的逻辑关系,构建贝叶斯网络结构;以历史统计和专家经验为数据输入得到民航空中停车贝叶斯网
学位
终端区航空器的管制间隔处于实时变化的状态,其间隔距离受所需性能、航空器性能、管制因素和空域容量等多种因素的影响。在航班繁忙时间段内,终端区内航空器运行间隔可能缩小,因此会对民航安全目标水平产生影响。因此,需要对相关运行间隔进行安全分析和评估,确定缩小间隔风险处于可接受程度,验证其不会对空域或机场的安全运行产生不利影响。针对上述问题,本文首先研究分析终端区航空器运行模式,分别从终端区概念、终端区发展
学位