论文部分内容阅读
说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个性特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。GMM方法是目前文本无关的说话人识别广泛应用的方法。本文使用GMM方法,通过实验分析得出了基于GMM的汉语说话人识别的一些概括性结论。分析了在不同的混合模型数、特征参数MFCC及LPCC、不同训练语音长度、不同测试语音长度及不同的预处理条件下的识别性能。由实验结果得出:MFCC的识别性能优于LPCC;用30秒的训练语音长度去建立说话人模型就足够了,并且MFCC及LPCC分别在4秒和5秒测试语音长度时误识率达到了0。接着本文提出了语音特征空间映射的方法并应用于基于GMM的说话人识别中。实验中采用了12维和14维的LPCC及MFCC作为语音特征参数,根据各维语音特征分量在说话人识别中的相对重要性得出初始的映射因子,然后通过本文提出的算法依据最低误识率的准则修正此映射因子以寻求其特征空间的最佳映射。映射后的语音特征空间更具类别的可分性,增强了语音特征中说话人的个性特征,从而提高了识别性能。在本文最后还提出了特征参数子分量分析的4S方法,该方法可以分析和评价语音特征参数中语义和说话人个体特征信息。通过DTW实验分析了LPC、LPCC及MFCC特征参数中语义及说话人特征信息两个子分量的一些特性。