论文部分内容阅读
语音是人类最自然最重要的交流沟通方式,将语音信号中说话人的信息提取出来,即说话人识别,也称为声纹识别,是目前语音信号处理中的一个重要研究方向。随着智能计算、网络安全需求的迅速发展,可提供生物特征识别的声纹识别技术受到越来越多的关注,正在走向实用化。经过多年的研究,实验室环境下的说话人识别系统已经较为成熟。然而,从实验室走向现实环境仍有一定的问题。问题主要集中在说话人识别的鲁棒性与计算量上。说话人识别系统可以粗略的分为特征提取与模式识别两部分。在经典的文本无关说话人识别技术中主要采用梅尔倒谱系数与UBM-MAP-GMM模型作为特征提取与模式识别。UBM-MAP-GMM模型尽管考虑了测试语音与训练语音失配的问题,但在实际情况下,该模型的运算量与存储需求仍较大,鲁棒性离实用还有一些距离。本文从研究语音信号中不同类型的信息如何混杂、如何提取入手,引入语音高层信号分析,对增强声纹识别鲁棒性、减少计算量进行了研究。本论文的主要研究内容如下:1.探讨了高斯混合模型的物理意义,并介绍了当前的一些对UBM-MAP-GMM模型的改进方法,分析了当训练语音中部分音素类较少时经典模型的处理方式及其不足,进而提出了基于挑选高斯分量的说话人确认系统。实验证明,改进的说话人确认系统无论是训练时间,还是等错误率,均有一定的下降。2.短时特征参数MFCC反映的是说话人的声道特征,基于基频与帧能量的韵律特征反映的是说话人的声门信息,两者从不同的角度刻画了说话人,存在互补以提高系统性能的能力。本文提出了基于二次判决的特征融合方法,实验表明,在该方法下系统性能有一定的提高。3.基于能量的声门信息与短时特征参数MFCC均带有说话人个性信息,然而由于两者描述的是不同层次的个性特征,因此必然存在相互干扰。本文通过从短时特征参数MFCC中剥离声门信息,使得短时特征参数MFCC的区分能力得到提升,从而改善了说话人识别系统的性能。