论文部分内容阅读
说话人识别技术根据语音中反映说话人生理和行为的特征参数自动识别说话人身份,被认为是最自然的生物认证技术之一。特征参数提取是说话人识别中的核心部分,而找到一种简单可靠的特征参数非常困难,如果识别过程是在噪声环境下进行的,识别率更会明显降低。本论文在较为深入地研究了基音周期(pitch)、线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)等语音特征的基础上,针对特征参数的稳定性、准确性和鲁棒性开展了以下工作:(1)传统参数提取方法中,固定窗长加窗会降低语音的短时稳定性,并导致不同程度的谐波泄露。本论文提出了一种基音同步可变窗长加窗语音参数提取预处理方法,以取代传统固定窗长加窗。首先,检测语音同步基音周期,由检测结果决定窗长,即只保留语音中具有完整周期性的部分作为分析帧,之后提取该分析帧特征参数。实验结果证明,说话人确认算法中,若在LPCC参数和MFCC参数提取前使用该预处理,识别率将有一定提高。(2)由于使用基音同步可变窗长加窗预处理的语音将保留更多高频信息,同时,语音的高频部分通过该预处理后频谱距离将有明显降低,又由于噪声声压级随频率的增加会逐步降低这一特点,本论文对采用基音同步可变窗长加窗语音参数提取预处理后的语音,在提取MFCC参数时进行高频部分加权处理。实验结果表明,该方法有利于提高语音噪声鲁棒性,并进一步提高识别率。(3)在确定了本论文提出算法的有效性后,采用提出的基音周期可变窗长加窗预处理高频加权MFCC参数提取方法及传统MFCC参数提取方法研制开发了用于实时说话人识别的原型系统,该系统具有高识别率、抗噪性等优点,能够满足办公室、家居环境下较少用户说话人识别要求。