基于注意力机制的端到端语音识别应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：wwucg

【摘要】

：

随着计算性能的提升和大数据的发展,深度学习的应用大幅度降低了语音识别系统的错误率,使得基于隐马尔科夫-深度神经网络(Hidden Markov Model-Deep Neural Network,HMM-DNN)

【作者】

：

刘柏基

【出处】

：

华南理工大学

【发表日期】

：

2004年期

【关键词】

：

端到端语音识别注意力低资源流式解码多语种

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算性能的提升和大数据的发展,深度学习的应用大幅度降低了语音识别系统的错误率,使得基于隐马尔科夫-深度神经网络(Hidden Markov Model-Deep Neural Network,HMM-DNN)的系统成为主流。近年来,端到端的语音识别方法引起了人们的广泛关注。与HMM-DNN模型需要通过复杂的流程来获取帧级别对齐标注不同,端到端的方法直接训练语音特征和文本的映射关系,简化了语音识别模型的训练流程。端到端的识别方法大致可以分为两类:直接训练帧级别的对齐的方法,如CTC(Connectionist Temporal Classification);还有着重于特征序列与文本序列对应关系的基于注意力机制的方法。本文主要研究基于注意力机制的端到端语音识别模型,主要研究成果包括:1、由于端到端语音识别模型往往拥有大量的模型参数,在训练数据有限时容易过拟合,导致模型的识别性能不如传统混合模型。本文基于8小时小规模英文数据集Timit展开研究,提出了一套适合低资源的并行端到端建模方法及模型结构,称为TDNNTransformer结构,并引入了线性判别分析(Linear Discriminant Analysis,LDA)以降低特征的训练难度,使得该模型在低资源数据集上与传统方法性能接近。2、由于注意力机制对输入语音的全局依赖性,无法支持流式语音识别。本文针对实际工程应用中存在的流式解码问题展开研究,提出一种基于多头单调块注意力的快速流式解码模型。在使用插入池化层进一步提升模型的性能后,在腾讯内部18000小时车载数据集上,提出的模型获得了比传统模型更好的识别性能,使得商业应用成为可能。此外,在100小时的Aishell-1中文公开数据集上,提出的模型仍可以达到其他现有模型相近的识别效果。3、混合语言的语音识别是当今语音识别的另一个挑战。端到端模型能够更好的利用上下文的信息,从而提升混合语言语音识别的准确率。本文提出一种改进的LAS(Listen,Attend and Spell)模型,结合BPE(Byte Pair Encoding)算法,和一种基于概率采样的批训练方法,有效地提升了端到端的模型在中英混合语音识别上的效果。在ASRU(Automatic Speech Recognition and Understanding)会议组织的中英混合挑战赛中,本文提出的模型在25个参赛队伍中取得了第4名的成绩。

其他文献

煤矿信息化与内部市场化融合的精细管理

煤矿信息化与内部市场化融合的精细化管理,是精益管理思想在煤炭企业的具体运用。在推进精细化管理进程中,平煤天安一矿探索融合内部市场运作与信息化管理,积极构建安全、质

会议

信息化内部市场化融合精细管理

以线粒体为靶点的羟基肉桂酸衍生物的合成，抗氧化活性和细胞毒活性研究

为了研究与发现高活性的化学防癌与抗癌药物,我们利用酯键将亲脂性三苯基膦阳离子与羟基肉桂酸类化合物杂合,合成了具有线粒体靶向的羟基肉桂酸类衍生物MitoHCAs,并对其抗氧

学位

线粒体功能障碍肝癌羟基肉桂酸类化合物抗增殖活性线粒体通透性转移孔

混合式表面发射率的测量与研究

发射率作为一项非常重要的热物性参数,能够表征物体的辐射能力,它不仅与波长和温度有关,而且还与物体表面的结构、氧化程度以及涂层等因素息息相关。为测量和研究混合式表面

学位

混合式表面发射率空腔阵列红外测温仪红外热像仪

基于时空信息解析和机器学习的交通速度预测研究

随着机动车数量的急剧增长,交通速度预测具有越来越重要的意义。准确合理地预估交通情况,可以有效地缓解交通拥堵,减少等待时间,辅助管理者进行交通管理和维护公共安全。同时

学位

交通速度预测时空相关解析宽度学习注意力机制

鬼臼毒素与5-FU拼合物C069的抗肿瘤活性研究

鬼臼毒素(PPT)是一种木脂素类化合物,具有抗有丝分裂、抗风湿以及抗病毒等多种生物活性。但由于其本身的毒性,未能在临床中直接使用;不过以其为先导化合物,通过结构修饰改造

学位

鬼臼毒素5-FU抗肿瘤增殖抗肿瘤迁移血管新生

基于语义分割和光流估计的快速响应车道线识别方法研究

近年来,随着全球经济不断发展,道路上的车辆越来越多,随之而来的是城市交通拥堵和交通事故增加。先进驾驶辅助系统和无人驾驶技术可以通过提醒驾驶员或接管驾驶员操作的方式

学位

车道线识别语义分割光流估计单目视觉测距曲线拟合

内蒙古医科大学附属医院儿童肺炎链球菌分子流行病学及致病特征研究

目的通过调查内蒙古医科大学附属医院儿童患者肺炎链球菌分离菌株的基因分型特征,了解其优势克隆株,并对其毒力基因表达特征进行分析,进而了解优势克隆株毒力基因表达特征,为进一步探究内蒙古医科大学附属医院儿童患者肺炎链球菌致病特征及机制提供实验数据,为儿童患者肺炎链球菌疾病防治提供临床数据。方法选取2015.12.1-2018.12.30在我院微生物室经微生物培养出肺炎链球菌的儿童及成人分离菌株为研究对象

学位

肺炎链球菌多位点序列分析毒力基因实时荧光定量PCR

解剖学修复AITSI的有限元分析

目的:通过对下胫腓联合损伤(anterior inferior tibiofibular syndesmosis injuries,AITSI)采取解剖学修复的手术方式进行有限元分析并评估其生物力学稳定性,为解剖学修复AITSI的临床应用提供科学依据。方法:将一名正常志愿者的踝关节CT数据导入Mimics 20.0,建立相关骨骼的三维表面模型,再经Geomagic Studio2013构建几何实体

学位

下胫腓联合内固定生物力学有限元分析

全血元素水平与结直肠癌发生风险关联的病例对照研究

背景:结直肠癌是世界范围内的一类重大癌症,在肿瘤发病率中位居第三,在肿瘤死亡率中位居第二。目前结直肠癌的病因不明确,但已发现一些危险因素,例如不良的生活方式和饮食习

学位

元素结直肠癌病例对照研究

基于动态订单的物流服务供应链调度研究

物流普遍存在于居民生活的方方面面,并对国民经济的发展至关重要。订单分配作为物流服务供应链调度领域的核心问题,集成商如何协调物流服务提供商的能力,在整个物流服务供应

学位

物流服务供应链(LSSC)订单分配运输方式公平偏好改进的粒子群优化算法(IPSO)

基于注意力机制的端到端语音识别应用研究

其他学术论文