基于回归神经网络的语音识别抗噪研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:jewelryt40b
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网时代的快速发展,语音识别应用变得越来越普及,语音交互由于其便捷性也逐渐被大众所接受。但是语音识别过程中环境噪声以及不同设备的信道多样性制约着自动语音识别系统的大规模应用。近年来,深度神经网络(Deep Neural Network, DNN)被成功应用到自动语音识别系统中,基于大数据训练,DNN相对于传统方法有着更好的鲁棒性,但是DNN在噪声环境下仍面临着识别率差的问题。而且,由于深度神经网络模型的特点,许多传统的抗噪方法很难被直接使用。为此,本文主要做了如下工作:(一)本文在800小时的大规模训练数据下探索不同回归神经网络结构的建模能力,包括输入输出结构,DNN-Autoencoder结构,激活函数选择等,通过实验对比得到最优的神经网络结构。该方法通过DNN强大的非线性建模能力学习噪声语音特征与干净语音特征的映射关系,然后将处理后的带躁语音输入至语音识别系统中进行语音识别从而提高语音识别率。本文的最优网络结构将噪声语音的词错误率从23.8%降低到18.2%,性能相对提升23.5%。(二)本文首次将混合密度网络(Mixture Density Network, MDN)应用到抗噪语音识别。混合密度网络将目标特征拟合为混合高斯分布,通过最大似然函数优化神经网络,实验表明,MDN能够带来相对DNN有5.0%的词错误率下降,相对DNN有更强的拟合能力。(三)本文将回归神经网络应用到了远场语音识别以及频谱扩宽中。远场语音主要为卷积噪声,本文实验表明回归神经网络对远程语音建模能够带来识别性能相对55.5%词错误率下降。同时若将回归神经网络与后端声学模型进行匹配性训练则又能够带来相对4.9%的性能提升。同时本文将回归神经网络应用在频谱扩宽领域中,将8千赫兹语音特征通过回归神经网络映射成16千赫兹语音特征,并对伪16千赫兹特征输入到16千赫兹语音识别系统中进行语音识别,实验表明,该方法可使得8k识别率性能降低在5%以下的可容忍范围内,而训练资源可减少一半。
其他文献
分析房屋建筑工程中地基处理的特点和目的,阐述地基处理技术在房屋建筑工程中的应用,明确地基处理技术在房屋建筑工程中的重要作用,进而促使地基处理技术在房屋建筑工程中的
目前的自动指纹识别系统大多是基于PC平台的,而当今市场对自动指纹识别系统的便携性和易用性提出了更高的要求。介绍了自动指纹识别系统的原理,提出了以基于脊线跟踪的方法直接从指纹灰度图象提取特征的算法来提取指纹图像的特征点,总结了指纹识别的基本原理及其关键技术,研究了目前主要的指纹识别的算法。
在当前,有不少人把社会收入差距的扩大与社会不公产生的原因归咎于邓小平的"先富后富"理论,并以此来质疑、抨击、否定改革开放与走社会主义市场经济道路所取得的巨大成就和创
“心理场”理论在网络传播中的应用揭示出网民个体和心理环境这两个因素整体作用决定网民的行为。通过具体分析心理场模式下心理环境与网民个体两个动因,解析网络红人现象以
<正>警惕注射用头孢哌酮钠舒巴坦钠的严重不良反应注射用头孢哌酮钠舒巴坦钠是复方制剂,为头孢哌酮钠和舒巴坦钠均匀混合的无菌粉末,适用于治疗敏感细菌所致的呼吸系统感染、