论文部分内容阅读
随着移动互联网时代的快速发展,语音识别应用变得越来越普及,语音交互由于其便捷性也逐渐被大众所接受。但是语音识别过程中环境噪声以及不同设备的信道多样性制约着自动语音识别系统的大规模应用。近年来,深度神经网络(Deep Neural Network, DNN)被成功应用到自动语音识别系统中,基于大数据训练,DNN相对于传统方法有着更好的鲁棒性,但是DNN在噪声环境下仍面临着识别率差的问题。而且,由于深度神经网络模型的特点,许多传统的抗噪方法很难被直接使用。为此,本文主要做了如下工作:(一)本文在800小时的大规模训练数据下探索不同回归神经网络结构的建模能力,包括输入输出结构,DNN-Autoencoder结构,激活函数选择等,通过实验对比得到最优的神经网络结构。该方法通过DNN强大的非线性建模能力学习噪声语音特征与干净语音特征的映射关系,然后将处理后的带躁语音输入至语音识别系统中进行语音识别从而提高语音识别率。本文的最优网络结构将噪声语音的词错误率从23.8%降低到18.2%,性能相对提升23.5%。(二)本文首次将混合密度网络(Mixture Density Network, MDN)应用到抗噪语音识别。混合密度网络将目标特征拟合为混合高斯分布,通过最大似然函数优化神经网络,实验表明,MDN能够带来相对DNN有5.0%的词错误率下降,相对DNN有更强的拟合能力。(三)本文将回归神经网络应用到了远场语音识别以及频谱扩宽中。远场语音主要为卷积噪声,本文实验表明回归神经网络对远程语音建模能够带来识别性能相对55.5%词错误率下降。同时若将回归神经网络与后端声学模型进行匹配性训练则又能够带来相对4.9%的性能提升。同时本文将回归神经网络应用在频谱扩宽领域中,将8千赫兹语音特征通过回归神经网络映射成16千赫兹语音特征,并对伪16千赫兹特征输入到16千赫兹语音识别系统中进行语音识别,实验表明,该方法可使得8k识别率性能降低在5%以下的可容忍范围内,而训练资源可减少一半。