论文部分内容阅读
随着计算性能的提升和大数据的发展,深度学习的应用大幅度降低了语音识别系统的错误率,使得基于隐马尔科夫-深度神经网络(Hidden Markov Model-Deep Neural Network,HMM-DNN)的系统成为主流。近年来,端到端的语音识别方法引起了人们的广泛关注。与HMM-DNN模型需要通过复杂的流程来获取帧级别对齐标注不同,端到端的方法直接训练语音特征和文本的映射关系,简化了语音识别模型的训练流程。端到端的识别方法大致可以分为两类:直接训练帧级别的对齐的方法,如CTC(Connectionist Temporal Classification);还有着重于特征序列与文本序列对应关系的基于注意力机制的方法。本文主要研究基于注意力机制的端到端语音识别模型,主要研究成果包括:1、由于端到端语音识别模型往往拥有大量的模型参数,在训练数据有限时容易过拟合,导致模型的识别性能不如传统混合模型。本文基于8小时小规模英文数据集Timit展开研究,提出了一套适合低资源的并行端到端建模方法及模型结构,称为TDNNTransformer结构,并引入了线性判别分析(Linear Discriminant Analysis,LDA)以降低特征的训练难度,使得该模型在低资源数据集上与传统方法性能接近。2、由于注意力机制对输入语音的全局依赖性,无法支持流式语音识别。本文针对实际工程应用中存在的流式解码问题展开研究,提出一种基于多头单调块注意力的快速流式解码模型。在使用插入池化层进一步提升模型的性能后,在腾讯内部18000小时车载数据集上,提出的模型获得了比传统模型更好的识别性能,使得商业应用成为可能。此外,在100小时的Aishell-1中文公开数据集上,提出的模型仍可以达到其他现有模型相近的识别效果。3、混合语言的语音识别是当今语音识别的另一个挑战。端到端模型能够更好的利用上下文的信息,从而提升混合语言语音识别的准确率。本文提出一种改进的LAS(Listen,Attend and Spell)模型,结合BPE(Byte Pair Encoding)算法,和一种基于概率采样的批训练方法,有效地提升了端到端的模型在中英混合语音识别上的效果。在ASRU(Automatic Speech Recognition and Understanding)会议组织的中英混合挑战赛中,本文提出的模型在25个参赛队伍中取得了第4名的成绩。