论文部分内容阅读
目前的说话人识别系统对纯净语音已经可以达到很高的识别精度,但实际环境中无处不在的噪声带来了训练模型和测试语音之间的失配,使得噪声环境中说话人识别系统的识别率急剧下降。因而抗噪声的研究是说话人识别系统实用的关键。语音识别领域的语音库大部分都是基于单语种的,而测试阶段的语种和训练阶段的语种的不匹配将导致很大的系统性能下降率。本论文在较为深入的研究了高斯混合模型(GMM)和Mel频率倒谱系数(MFCC)的基础上,针对说话人模型的稳定性、准确性和鲁棒性以及语音识别技术在智能控制领域的应用开展了以下工作:1.传统的模型补偿算法中,用白噪声模拟现实环境噪声来建立高斯混合模型以提高系统噪声下的鲁棒性,本论文研究了一种基于多环境噪声多信噪比建模的方法,实验结果表明:基于多环境噪声多信噪比GMM比用白噪声模拟现实环境噪声建立GMM具有更好的噪声鲁棒性。2.针对训练和测试阶段中的语音数据类型(普通话和四川方言)的不匹配对说话人确认系统性能导致很大的下降率问题,本论文研究了一种普通话和四川方言按比例混合建立普通话和四川方言联合GMM的方法。实验结果表明该方法可以有效地加强测试阶段针对语种变化的鲁棒性,可以有效的减少普通话和四川方言在训练和测试阶段的不匹配造成的性能下降率。3.本论文开发了基于GMM与DTW的语音智能家居控制系统,将语音识别技术的说话人确认与孤立词识别有机结合起来,研制开发了用于实时语音识别的原型系统。经过小样本语音库测试后结果表明,该系统识别率较高、实时性较好,能够基本满足办公室、家居环境下较少用户语音识别的要求。