论文部分内容阅读
随着互联网的发展和普及以及信息安全问题的不断涌现,身份鉴别技术便成为了人机交互和信息交流中的一个重要发展方向和发展难点。语音身份识别作为生物识别技术方法手段中的一种,以其便捷性、直观性等特点逐渐被人们接受和使用,并成为生物识别范畴的研究热点,在多个领域得到了诸多应用。作为语音识别的一个分支,语音身份识别的本质是从说话人发音信号中提取出能反映个人特征的信息,并通过这些个性信息的分类和匹配来完成对说话人身份的辨识和确认。近年来,随着语音身份识别相关技术的不断发展和改进,以高斯混合模型-通用背景模型和身份辨识向量、概率线性分析等为主的技术方法的出现,开创了语音身份识别技术发展的新局面,使得语音身份识别正逐渐走出实验室走向实际应用。而在现实应用环境中,不免会出现各种各样影响语音质量的背景噪声,使得实际工程应用中的识别系统效果达不到理想要求,成为限制语音相关技术发展的重要因素。因此,本文对噪声环境下的鲁棒语音身份识别关键技术进行了深入研究,充分分析了语音特征提取和识别模型中的抗噪问题,具有重要的理论意义和广阔的实用价值。文章的主要工作包括以下几个方面:首先,本文对语音身份识别相关技术进行了概括,对其原理进行了详细的阐述,并在语音特征提取方面,通过结合符合人耳听觉特性的伽马啁啾滤波器,提出了一种非线性幂函数变换Gammachirp滤波器的鲁棒语音特征提取算法NPGFCC,该特征基于压缩归一化Gammachirp滤波器组,可以准确表征出语音段信号,并通过利用分段非线性幂函数变换、时间序列滤波等方式增强其抗噪性能,在结合PLDA的i-vector模型下对算法性能进行了实验分析。其次,从语音身份识别模型入手,针对语音模型训练环境和现实应用环境之间的失配问题,从补偿的角度研究了高斯混合模型-通用背景模型,结合并行模型组合的思想,提出了一种自适应噪声估计的特征补偿算法APMC,自适应并行模型组合是一种噪声鲁棒性的特征补偿算法,能够有效减少训练环境与测试环境之间的不匹配现象,从而提高系统识别准确率和抗噪性能。实验表明,该方法可以准确地重构干净语音的高斯混合模型参数,并且能够显著提高说话人识别的准确率,特别是在较低信噪比的情况下。最后,研究了目前较为流行的辨识向量和概率线性分析识别模型,通过将鲁棒语音特征提取和自适应特征补偿算法以及决策融合的思想进行整合,以i-vector和PLDA模型为基础,构建了一套完整的抗噪语音身份识别算法,并对提出的方法进行了实验分析与验证,以及实现了语音身份识别系统的仿真,结果表明本文提出的方法可以有效提高系统的抗噪鲁棒性。