论文部分内容阅读
近年来,语音识别技术在不同场景下的应用需求骤增,其在复杂场景下的实用性得到了学术界与工业界的共同关注。在多样化的场景下,如车载环境中的语音识别、嘈杂环境中终端设备上的语音识别、以及工厂环境中物联网设备上的语音识别等。这些场景下由于环境噪声的影响,造成语音识别系统的识别性能降低,无法保证系统在不同场景下的鲁棒性。另一方面,传统的语音识别模型结构复杂,由基于隐马尔可夫(GMM-HMM)的声学模型(AM)、语言模型(LM)、字典和解码器构成。此类语音识别技术往往基于统计模型,模型结构中包含多个目标函数。因此在多目标条件下,训练过程中不易学到适合整体模型的最优权重。同时,现存的语音识别模型还存在着参数量巨大,不易部署在资源受限的终端设备上的问题。基于上述问题,本文从语音特征优化、模型设计方面出发,提出相应的优化方法。具体而言,在语音特征方面,提出一种基于稀疏表示的语音特征增强算法,以应对在不同场景下语音识别系统的鲁棒性问题;在模型设计方面,提出一种结构简单、模型轻巧、易于部署的轻量化端到端语音识别模型。本文所做具体工作内容如下:(1)为了解决语音数据Y中由背景噪音或自身噪音所带来的干扰问题,本文结合压缩感知领域的知识,提出一种基于稀疏表示的语音特征增强算法。由于数据信号自身的特点,如语音信号、图像信号等是可以被稀疏的,而噪声信号不能被稀疏。因此可通过语音特征的稀疏表示将携带有用信息的特征和噪声特征分离,同时保留了语音信号的本质特征。本文讨论了所提出的语音特征增强算法与其它传统数据增强算法的性能差异,实验结果表明,本文提出的算法要优于wiener滤波算法、谱减法等传统数据增强算法,并在多种噪声场景下提高了语音识别系统的识别性能。同时,我们还探讨了该算法在多模态语音识别系统下的性能,在多模态语音识别系统下特征增强算法仍具有优势。(2)本文提出一种轻量化的端到端语音识别模型CNN1D-CTC,该模型由一维卷积神经网络(Convolutional Neural Networks)和CTC(Connectionist Temporal Classification)分类算法构成。模型结构简单,与其它模型相比参数量较少,模型占用内存资源较小,因此易部署在资源受限的小型终端设备上。同时CNN1D-CTC模型为端到端的语音识别模型,可通过神经网络学习的方式自适应的将语音数据和标签在帧级别进行对齐。因此,本文提出的CNN1D-CTC模型在达到更高识别性能的同时减小了模型参数量,具有轻量化的特征。此外,以该端到端语音识别模型为基础模型,在此基础模型上对不同特征作为输入时的系统性能做出了探究。实验表明多模态特征作为输入时的识别性能要优于单模态特征下的识别性能。