【摘 要】
:
近些年随着互联网产业的发展,语音识别技术的应用越来越广泛。基于注意力机制的端到端语音识别模型(Attention-based Encoder-decoder End-to-end ASR model,AED)由于训练简单,效果比传统的语音识别模型更好,得到了大规模的应用,并且成为了学术界的研究重点。但是AED模型容易学习到语言偏见从而影响模型的识别准确率。因此需要消除AED模型中的语言偏见才能进一
论文部分内容阅读
近些年随着互联网产业的发展,语音识别技术的应用越来越广泛。基于注意力机制的端到端语音识别模型(Attention-based Encoder-decoder End-to-end ASR model,AED)由于训练简单,效果比传统的语音识别模型更好,得到了大规模的应用,并且成为了学术界的研究重点。但是AED模型容易学习到语言偏见从而影响模型的识别准确率。因此需要消除AED模型中的语言偏见才能进一步提高系统性能。为了消除语言偏见,学术界提出了内部语言偏见估计算法(Internal Language Model Estimation),其中效果最好的是微软提出的置零法。但是置零法只适用于部分比较旧的AED模型而且估计准确性较差。另外,置零法等内部语言偏见估计算法在融合的时候需要同时推理AED模型,语言偏见估计模型和外部语言模型三个模型,极大地增加了推理时所需的计算量和解码时间,限制了其在工业上的应用。针对以上两个问题,本文的主要研究内容和成果如下:(1)研究并且分析了置零法对语言偏见估计不准的原因,并在置零法的基础上提出了基于训练的语言偏见估计算法。该算法通过训练的方式找到AED模型中查询向量到内容向量的映射关系。通过将AED模型的注意力机制替换为训练得到的映射关系来估计语言偏见。实验证明,本文提出的算法适用于所有AED模型,并且估计准确率远高于置零法,可以进一步的降低语音识别系统的词错误率。在Librispeech测试集上与不进行语言模型融合相比,最高可以获得33%的相对此错误率降低。(2)通过在整个训练过程中持续利用本文提出的语言偏见估计算法对AED模型学习到的语言偏见进行监控,本文发现了语言偏见的形成的原因是训练初期AED模型的编码器没有编码声学信息的能力因此迫使AED解码器学习利用语言信息做出预测,从而导致AED的解码器学习到语言偏见。(3)为了减小推理是的计算量,本文提出了基于对抗训练的内部语言偏见消除算法。这种算法在训练的阶段就消除了语言偏见,所以在推理阶段不需要像普通语言偏见估计算法一样同时推理三个模型就可以获得较大的精度提升,极大地减少了推理时所需的计算量和解码时间。有利于其在工业上的应用。
其他文献
本文主要研究带电磁场的玻尔兹曼方程的扩散极限相关问题,包括周期区域和全空间上尺度化单粒子Vlasov-Poisson-Boltzmann方程组的不可压缩Navier-Stokes-Fourier-Poisson极限,全空间上尺度化双粒子Vlasov-Maxwell-Boltzmann方程组的不可压缩Navier-Stokes-Fourier-Maxwell极限,以及全空间上双流体不可压缩Navie
随着分布式能源广泛接入配电系统或终端用户,这些资源不仅可用于解决配电系统自身的运行问题,而且还能向输电系统提供一定的灵活性服务,输电系统和配电系统之间的联系变得更加紧密,现有输配割裂的管理模式将面临严峻的挑战。国内外的调研表明,输电系统和配电系统的相互协调有利于解决电压支撑、线路及输配边界点阻塞以及全局功率平衡等问题。按照现有的管理模式,电力系统输配协调优化问题本质上是涵盖输电系统和配电系统等多个
Boltzmann方程的流体力学极限理论,提供了气体运动的微观模型和宏观模型间的连接桥梁,具有重要的应用物理背景和理论研究意义.本文主要研究几类带外力场的Boltzmann方程的流体力学极限问题,包括带已知外力场和in-flow边值条件的稳态Boltzmann方程的不可压缩Navier-Stokes-Fourier极限,带电场的尺度化双粒子Vlasov-Poisson-Boltzmann 方程组初
鉴于世界正面临着气候变化的重大挑战,2020年我国正式提出到2030实现碳达峰、到2060年实现碳中和的战略目标。目前最重要的任务是实现能源体系的低碳转型,将生态环境保护和能源革命目标结合起来,实现绿色、低碳、循环的高质量协同发展。能源转型要求发电从化石燃料向氢能、太阳能和风能等可再生能源进行转变,提高能源效率。氢能作为一种理想的能量载体,具有能量密度高、零污染、零碳排放的优点,是缓解日益严重的能
5G向来被认为是行业数智化转型的基石,而5G-Advanced作为5G和6G的重要中间节点,具有灵活的网络架构,向灵活可重构的方向发展,连续/非连续载波聚合是5G关键特征之一,因此,开发灵活可变、可重构、支持多波段多标准传输的无线电收发机具有重要意义。传统的模拟通信系统实现多波段传输的方法是针对不同波段设计不同的电路,导致设备面积增大、成本提高和功耗变大,同时在可扩展、可配置、灵活可调性方面受限。
随着智能语音技术的发展,说话人确认技术逐渐进入人们的日常生活与工作中。如何进一步降低说话人确认的错误率、如何在计算资源有限的终端实现说话人确认是目前智能语音处理领域的研究热点。本文探讨基于深度神经网络的说话人确认及其轻量化问题。论文的主要工作及贡献如下:(1)提出基于注意力空洞残差卷积循环网络(Attentive Dilated Res2Net Recurrent Network,ADRRN)的说
5G的到来和物联网的发展前景为穿戴式智能终端提供了新的动力和发展趋势。“万物相连”的理念要求可穿戴设备不局限于手机、手表、耳机等传统形式,应尽可能地集成于人们日常可穿戴物件中。作为此类无线设备的重要组成元件,可穿戴天线也需要具备便携、轻量、穿戴舒适等特性。将可穿戴天线与衣物集成一体化对实现无线体域网(Wireless Body Area Network,WBAN)应用及新型物联网可穿戴设备具有重要
随着人类对海洋资源的开发和利用,水声通信与探测技术越来越受到重视,而其质量受多普勒效应影响严重。线性调频(Linear Frequency Modulation,LFM)信号由于具有较好的多普勒容限,常用作于声呐信号。目前针对水声信道发送端为单分量LFM信号的多普勒因子估计方法已被深入研究。随着多输入多输出(Multiple-Input Multiple-Output,MIMO)技术在陆地通信中的
当下人类生存方式发生了巨大变革给未来人才提出了新的诉求,教育从过去更注重知识和技能变得更加注重素养。科技教育是应对未来社会变革的新重点,提升科技教育水平对国家、社会和个人都有着重要作用。而新时代的科技教育对教学空间提出了新的需求,驱动了中学科创中心这类新型空间的产生,并驱动空间模式的转变。中学科创中心作为新型的教学空间,未来有着大量建设的趋势,但却存在场地不充足、建设无标准、模式不适应等情况。国内
自2009年全国33所高校首批开设社会工作硕士专业学位(MSW)以来,我国的社会工作硕士教育迅速发展,截止至2021年8月,全国有156所高校开设了MSW培养点。在社会工作硕士教育不断扩大完善的同时,在职社会工作者在各类因素的驱动下选择就读MSW成为了一种普遍现象,因此了解在职社会工作者就读MSW的意愿及其影响因素是十分必要的。本研究使用华东理工大学2019年中国社会工作动态调查(CSWLS201