论文部分内容阅读
抗噪语音识别技术是语音识别系统走向实用化的一个关键性难题。现有的语音识别系统通常是为受控环境中的纯净语音设计的,尽管它们在安静的环境里能取得很好的识别效果,但当存在环境噪声时,由于训练环境与识别环境的不匹配,其性能会急剧下降,在很多情况下无法满足实际应用的需要。本文对噪声环境中的语音识别技术进行了研究,其主要内容及成果如下: 1.针对传统均匀谱压缩特征提取技术会对部分语音子带信号产生过压缩而同时对其他部分子带产生欠压缩的缺点,我们依据听觉指数律提出了一种新的非均匀谱压缩技术一基于感知的非均匀谱压缩(Perceptual Non-uniform Spectral Compress,PNSC)技术。实验结果表明,本文提出的PNSC技术较传统的特征提取方法可以提供更具鲁棒性的语音特征。PNSC的应用可以有效地提高传统特征提取技术在低信噪比条件下的识别率。 2.依据人类听觉特性,特别是听觉掩蔽效应,提出了一种新的鲁棒语音特征提取技术一信噪比依赖非均匀谱压缩(SNR-dependent Non-uniform Spectral Compress,SNSC)技术。实验结果表明,基于新的SNSC特征提取技术的识别性能要优于其他非均匀谱压缩技术,以及传统的MFCC、LPCC和PLCC等特征提取技术。文中分析比较了基于传统和SNSC两种不同特征的模型参数,从模型的角度说明了基于SNSC特征的方法比传统特征提取方法更具鲁棒性;并且分析和给定该方法中参数的特性及选择范围。 3.针对SNSC技术应用到实际识别中时,需要根据应用环境情况进行重新训练的缺点,提出了一种基于SNSC特征提取技术的模型自适应方法(Model Adaptation based on SNR Non-uniform Spectral Compression,MA-SNSC)。在一定的假设条件下,文中给出了MA-SNSC算法及其推导过程。实验结果表明,该算法可以在不需要对模型重新训练的条件下自适应处理不同SNR及不同噪声条件下的识别任务,并且能够取得较好的识别性能。 4.传统的模型补偿方法如Log-Normal PMC算法等对静态模型参数给出一个严格的补偿方案,但是对其动态特征的模型参数的补偿,通常只能对其均值进行简单的修正,使得其在低信噪比条件下识别性能不佳。为此本文依据静态失配函数的导数推导出了一种新的动态模型参数补偿方法(Dynamic Parameter Compensation Method,DPCM)。实验结果表明在不同的噪声环