论文部分内容阅读
说话人识别(声纹识别)属于生物认证技术的范畴,是一种根据语音波形中反映说话人生理和行为特征的语音参数自动鉴别说话人身份的技术。现有说话人识别的研究大多是在办公室安静环境下基于短时处理的方法处理语音,缺乏具有鲁棒性的个性特征,识别算法类别区分能力较弱。针对以上的不足,本文针对噪声环境下的说话人识别展开研究,主要工作与创新如下:1.在端点检测中,利用经验模态分解法(Empirical Mode Decomposition,EMD)对带噪语音进行端点检测,首先利用EMD法对带噪语音进行分解,去除受噪声影响最大的前两层固有模态函数(Instrint Mode Function,IMF)分量后,经过分析均值与方差,得到能够完整表征语音信息的IMF分量,利用这些IMF分量重构语音,然后对重构的信号利用双门限法进行端点检测,实验结果表明发现在一定的信噪比下,本文提出的方法具有鲁棒性,并能提高端点检测的准确率。2.在特征提取中,先利用EMD法对信号进行分解,然后通过分析找出包含共振峰和基频的IMF分量,利用包含前三个共振峰的IMF1,IMF2和IMF4分量和包含基音信息的IMF3分量,并利用希尔伯特变换求取其瞬时频率(InstantFrequency,IF)。3.在训练/测试阶段,利用具有分类能力的支持向量机(Support VectorMachine,SVM)通过组合不同的特征参数进行说话人识别,实验结果表明本论文提出方法由于传统方法,且瞬时频率作为特征参数的效果优于MFCC作为参数的效果。