论文部分内容阅读
语言作为人们在人际交往中最主要的沟通途径,将来必然会成为人机交互与共融的重要桥梁。自动语音识别(ASR)可以表述为通过计算机将人类语音信号转录为书面形式的文字输出的过程,而早自20世纪70年代以来,自动语音识别问题就一直是机器学习界的一个重要研究课题。发展到现在,尽管传统的自动语音识别技术仍在被使用,但是解决了传统框架识别过程繁琐、难于优化等问题的基于深度神经网络的端到端模型在自动语音识别领域正逐渐成为研究热点与发展方向。在此背景下,本课题立足于深度神经网络结构框架,对端到端的语音识别技术进行研究。首先,分析当前两种主流端到端自动语音识别模型—CTC和基于注意力机制的模型,总结了二者存在的问题:1.CTC对输出单元之间作了相互独立性假设,但事实上这对上下文紧密相关的语音识别是并不合理的;2.注意力机制下允许不规则的输入输出对齐,但是通常语音识别却具有严格单调对应的输入输出。因此,本文提出了一种结合了CTC与注意力机制的端到端自动语音识别模型,并在开源英文语音数据集Librispeech识别任务上验证了模型的有效改进。其次,本文提出了一种新型编码-解码结构的端到端自动语音识别模型,基于循环神经网络的自适应映射模型(RAM)。RAM将语音识别任务看作序列到序列的映射问题,端到端地训练输入序列与目标序列对,引入“空白标签”达到输入与输出自适应对齐的目标,这点与CTC类似,但我们不再做输出独立性假设。再通过边缘化所有可能的空白标签来计算标签序列的概率。在Librispeech语音识别任务上的实验结果表明基于RAM的识别系统在没有额外语言模型的情况下,其识别性能相较于其他端到端模型是具有竞争力的。最后,针对普通话语音的发音特性,改进提出的新模型RAM以适用于普通话的语音识别,并在开源中文数据集AISHELL-1上验证了RAM模型在普通话语音识别任务上的有效性。此外,我们提出引入迁移学习方法,在大型英文数据集上预训练模型作为先验模型,再将他们移植至普通话的识别中,这不仅使训练更加高效,而且在性能上也获得了提升。