论文部分内容阅读
近年来,基于深度学习的端到端模型被广泛应用于语音识别任务当中。在端到端模型中,声学特征序列与输出字素之间的映射关系是由模型本身而建立的,不需要任何人工的强制对齐。因而,相比于传统的混合式模型,端到端模型给予数据调节的空间,提高模型的整体契合度。然而,大量的实验表明,端到端模型往往需要大量的训练数据去训练才能达到混合式模型同样的识别效果,其根本原因在于当前端到端模型的结构和设计算法仍有待改进的空间。端到端模型主要包括基于注意力机制的编码器—解码器模型及CTC模型,本文将花费大量的篇幅对此加以介绍,并围绕现有注意力机制和CTC模型存在的问题进行改进创新,具体工作如下:1.针对基于卷积位置信息的混合式注意力机制无法充分考虑过去多个时刻的位置信息的问题,本文提出了结合LSTM单元的混合式注意力机制。该方法首先采用多个卷积核从当前注意力得分分布中提取多通道特征图;然后,使用全局平均池化对每一通道的特征图进行聚合以生成固定维度的向量;最后,把该向量作为LSTM当前时刻的输入便得到用于下一时刻注意力得分生成的位置向量。本文结合经典的LAS模型去对新型的注意力机制加以评估,最终的实验结果表明,改进的模型在纯净和噪声语音测试集上均取得最低的标签错误率,相比于基于卷积位置信息的LAS模型,分别减少了1.8%和2.21%。2.通过堆叠多层循环神经网络,CTC模型能取得更好的识别效果。然而,多层循环神经网络结构会带来较严重的梯度消失问题。针对该问题,本文提出了采用密集连接循环神经网络的深层声学模型。该模型对经典的Deep Speech 2模型的结构做出一定程度的改进,并引入密集连接循环神经网络使得特征和梯度的传递更加有效。最终的实验结果表明,改进的模型在中等规模的中文语音数据集上取得最低标签错误率,相比于Deep Speech 2,其在训练集和测试集上分别减少了5.21%和3.68%。