论文部分内容阅读
说话人识别是语音识别的一种特殊形式,就是从说话人的一段语音中提取
出说话人的个性特征,通过对这些个性特征的分析和识别,从而达到对说话人
进行辨认或确认的目的。在说话人识别的研究过程中,人们逐渐发现鲁棒性是
说话人识别中的重要问题。影响说话人识别系统鲁棒性的主要因素有训练和识
别时声学环境的差异、环境噪声。
当训练和识别时声学环境不相匹配时,本文通过混响室内生成的声脉冲进
行数学变换的方式来构造不同混响时间的虚拟声脉冲。再通过虚拟声脉冲与声
源“干”信号进行卷积运算,就可以得到不同混响时间的语音信号。这样可以
选择一个与训练环境相匹配的识别的环境,从而使训练环境和识别环境相匹配,
提高系统的识别性能。
在噪声环境下,本文利用基于听觉掩蔽效应的语音增强技术,对含噪语音
信号进行降噪处理,这是对减谱法的一个改进,这样不仅能降低白噪声,还可
以降低减谱法中残留的音乐噪声,使音乐噪声给听觉上带来的不适得以降低。
经过降噪处理的语音信号送入说话人识别系统,使系统的识别性能得到提高。
高斯混合模型(GMM)方法是目前在文本无关的说话人识别中广泛应用的
方法,实验中分别提取LPCC参数和MFCC参数利用VC++建立一个基于GMM
的说话人识别系统,并且分析了在特征参数LPCC、MFCC下系统的识别性能。
由实验结果得出:MFCC的识别性能优于LPCC;对噪声环境下、训练和识别时
声学环境不相匹配的情况下,采用不同的声学预处理方法,提高了系统的鲁棒
性。
关键词:说话人识别,GMM,特征提取,掩蔽阈值,语音增强,鲁棒性