文本无关说话人识别系统研究

论文部分内容阅读

说话人识别技术属于生物认证技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数来自动识别说话人身份的技术。根据说话的内容,可以分为文本相关和无关两个方面。由于文本无关具有更加灵活与适用面广的特点,因此本文选文本无关说话人识别为主要研究课题。在文本无关说话人识别中,GMM将说话人识别问题转换成对说话人语音数据分布的估计问题,从而将复杂的语音训练、匹配的问题分解为模型参数的训练,以及概率的计算等子问题,解决了说话人识别任务中的很多难题。并且由于GMM具有简单、灵活、有效的特点以及较好的鲁棒性,迅速成为与文本无关的说话人识别中的主流技术。在系统构建方面,本文利用VC++实现了一个完整的说话人识别系统,包括前期的语音处理,特征提取以及后期的模型训练,识别。实现了说话人识别的两大功能:说话人辨认和说话人确认。在前期语音处理和特征提取方面,使用了Mel倒谱系数(MFCC)作为特征参数,在说话人模型方法,采用了高斯混合模型,它使用不同高斯密度的叠加来反映语音的声纹特征。本文的工作主要有以下几个方面:1.研究了GMM性能与训练数据集和测试数据集的依赖关系,特别是GMM阶数与训练数据集的关系。验证了在一定的训练集下,GMM阶数达到一定时,模型性能就会达到最优,继续增加GMM阶数将会导致模型性能下降。2.分析比较高斯混模型的训练方法包括:区别性训练方法和传统最大似然估计方法,并通过实验验证了区别性训练方法能够有效地提高说话人识别性能。3.本文提出一种新的方法,通过聚类优化GMM,有效地减少GMM高斯分量的数目。通过实验验证该算法能够在不明显降低系统识别率的情况下,有效地提高说话人识别的速度。

其他学术论文