论文部分内容阅读
声纹识别,也称说话人识别,它是通过对说话人的语音信号进行分析,而对说话人进行确认(Verification)或鉴别(Identification)的一种技术,已经在安全支付、声纹解锁、公安刑侦等许多信息安全领域得到成功和广泛的应用。人的声音所具有的特征分为声道特征和声门特征两类,传统的声纹识别技术是基于人的声道特征的,在理想的语音录制环境中能取得较好的识别效果。但是,传统声纹识别技术使用一种或两种声道特征,在噪声环境下识别性能下降。因此,本文研究基于融合人的声门特征的声纹识别技术。文章的主要研究工作如下: 1.分析了语音信号处理中的加窗分帧、端点检测的方法,并对传统的端点检测方法进行了改进,增加短时能量的变化幅度作为端点检测的一个门限。与传统方法相比,该方法降低了端点检测算法对噪声的敏感程度,提高了算法的适应性。 2.本文研究语音信号中梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的提取算法,并进行了改进,降低其对噪声的敏感程度。 3.针对传统基频提取算法中易产生倍频、半频错误的问题,本文结合倒谱分析,改进了归一化自相关函数的基频提取算法。仿真实验表明,与传统算法相比,该算法较好地解决了半频、倍频错误问题,并拟合成比较平滑的基音曲线,结果准确可靠。 4.最后将基频特征和MFCC融合,研究了基频特征的短时融合模型和一种基于基频特征的倒谱补偿模型,并分别进行了基于融合基频特征和矢量量化模型的仿真实验、基于融合基频特征和高斯混合模型的仿真实验,并将它们与基于MFCC的声纹识别实验进行比较,仿真结果显示基于融合基频特征的倒谱补偿模型能较好地提高了声纹识别的准确度。