论文部分内容阅读
随着指数级增长的语音数据不断产生,工业、农业、军事等领域对语音识别的需求与日俱增,对大规模语音信号精准高效的识别提出了更高要求。近几年,端到端语音识别成为语音识别领域研究的热门方向。相对于传统的隐马尔科夫混合模型,端到端语音识别模型一方面克服了隐马尔科夫混合模型中声学、发音、语言模型相对独立的问题,实现了全局统一优化;另一方面,无需进行状态的强制对齐与发音词典的构建,大大降低了模型构建的复杂性。论文紧紧围绕提高端到端语音识别的准确率与训练效率,着重对当前端到端语音识别的两种技术路线—基于联结时序分类(Connectionist Temporal Classification,CTC)、基于注意力机制(Attention)的端到端语音识别展开研究。主要工作和创新如下:1.针对基于CTC语音识别模型中循环神经网络造成的训练周期过长及模型深度不足的问题,认真分析群残差卷积网络和序列批标准化,创新性地将群残差卷积网络运用于构建CTC语音识别模型,构建了基于群残差卷积网络的CTC语音识别模型—GRCNN-CTC。群残差卷积网络中深度所带来的广泛感受野与残差结构带来的快速稳定收敛性,可以一定程度上代替循环神经网络对长时相关的语音特征进行时序建模。实验结果表明,构建的群残差卷积CTC网络模型在提高识别准确率的同时能够大大缩短训练周期。2.针对基于注意力机制语音识别模型中解码器状态向量与编码器状态向量对齐精度不高、解码网络输入特征表征性不足、独热编码造成的泛化性能不佳等问题,采用三种技术提升注意力机制语音识别模型的识别性能与泛化能力。一是构建Multi-Head注意力机制技术支撑下的注意力机制语音识别模型—Multi-Head LAS。将状态向量映射至不同表征子空间,从多个维度去计算当前解码器状态向量与编码器状态向量的相关系数,获得了更为准确的对齐信息。二是采用Input-feeding方法改进解码器输入流,用前一时刻多层感知器的状态向量代替前一时刻上下文信息向量,改善输入特征表征能力。三是运用标签平滑归一化技术引入标签噪声对模型进行约束、降低模型过拟合程度。实验结果表明,运用三种技术改进的注意力机制端到端语音识别模型能够有效提升模型的识别性能与泛化能力。