论文部分内容阅读
语音识别在实验室环境中已取得了令人满意的效果,但当运用到实际环境时却往往出现识别率显著下降的情况,如何提高噪声环境下的语音识别鲁棒性是当今语音识别研究中最为重要的问题。本文针对语音识别前端处理中的鲁棒性语音特征提取技术展开研究,分别从时域和频域两个方面出发,并结合人类发声特点和人耳听觉特性对已有的特征进行改进,提出了两种具有较好鲁棒性的语音特征提取方法。首先,本文提出采用神经网络进行非线性预测的时域特征提取方法,针对神经网络预测存在大量待估计参数的问题,通过线性预测方法中的最小均方误差原理,减少了估计参数的数目,实现了鲁棒性较高的特征提取。实验表明,在多种信噪比下,与线性预测编码系数(Linear Predictive Coding, LPC)和梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)特征相比有更好的鲁棒性。其次,针对传统MFCC的离散余弦变换(Discrete Cosine Transform,DCT)在语音信息表达方面存在的缺陷,采用具有更好表征能力的独立成分分析法(Independent Component Analysis,ICA)对离散余弦变换进行替换,提出了一种新的特征提取方法。实验表明,新的提取方法显著增强了改进后特征对语音特性的表达能力,在相同信噪比下比传统MFCC特征具有更好的鲁棒性;同时,为减少识别中出现的插入错误,引入了Hermansky提出的相对谱滤波技术,实验结果表明,与传统MFCC及ICA改进的MFCC相比,结合相对谱滤波技术的新方法显著减少了插入错误,且保持较高的词识别率;与传统感知线性预测(PerceptualLinear Predictive,PLP)及相对谱滤波改进的PLP相比,词识别率提升很多且去除插入错误的词识别率相差很小。