论文部分内容阅读
目前的语音识别系统对纯净语音可以达到非常高的识别精度,但是无处不在噪声带来了训练模型和测试语音之间的失配,识别器的性能在噪声环境中将会急剧下降。因此抗噪声问题是语音识别达到真正实用所必须解决的关键问题。加性背景噪声对语音识别影响非常大。论文工作的贡献之一是提出了一种基于语音增强失真补偿的算法,通过对多种抗噪声算法的有效融合来提高系统在背景噪声中的稳健性。在信号空间,利用语音增强有效抑制噪声,提高输入信号中的鉴别信息,但增强带来的语音失真和增强后的剩余噪声是对语音识别非常不利的因素。分析表明,语音失真和剩余噪声可近似看作乘性噪声和加性噪声,因此可在模型空间利用并行模型合并(PMC)算法通过调整模型参数对剩余噪声进行补偿,或者在特征空间利用倒谱均值归一化(CMN)算法对语音失真和剩余噪声同时进行补偿。从另一角度看,PMC和CMN算法在中等信噪比条件下最为有效,因此语音增强在前端的消噪过程将促进PMC和CMN算法对系统稳健性的提高。对多空间算法的有效融合能显著提高系统在噪声环境,特别是低信噪比情况下的识别精度。随着无线通信和计算机通信的迅速发展,对冲激噪声下稳健语音识别技术的研究成为一个新的热点。通过对Viterbi译码过程的分析,得出冲激噪声对语音识别的影响在于其引入了不可靠的概率差距。针对该结论,论文提出了在高斯分量级对噪声敏感特征子向量的观测概率进行限值,从而直接消除冲激噪声对语音识别的影响。特征划分和门限取值是该算法的两个关键问题。论文提出了衡量各维特征噪声敏感度的方法,并根据分析结果对特征向量作合理的划分。针对敏感特征的门限取值,论文提出了一种近似算法,将多维高斯分布的积分转换为级数求和,而且计算得到的门限和最佳门限值非常接近。合理的特征划分和最佳门限的指定将使得在有效消除概率差距的同时,保留更多的识别信息。该算法能够显著提高系统在冲激噪声环境中的识别率,并保持对纯净语音的高识别率。计算量小以及对噪声特性依赖性低则是该算法在实际应用中的优点。