论文部分内容阅读
说话人识别作为语音识别的一个分支,其本质是根据说话人的声音识别出说话人的身份。近年来,身份认证技术和移动互联网技术发展日益激烈,说话人识别正逐渐从实验室环境走向实际应用。而在实际工程应用中,更多的是在各种噪声环境和较低信噪比情况下使用说话人识别技术,因此,本文对说话人识别系统在低信噪比下的关键技术进行研究,具有重要理论意义和实际应用价值。首先,文章对语音信号的相关基本理论进行了全面研究,其中对语音信号的预加重、分帧加窗进行了重点分析,针对传统谱减法在低信噪比下对噪声抑制效果差的问题,提出了一种基于听觉感知特性的语音增强方法,在实验中与典型方法对比,改进的方法可以有效提高信号在低信噪比下的抗噪性。其次,针对低信噪比下不同噪声类型端点检测质量下降的问题,提出了一种基于模糊熵和改进相关向量机结合的端点检测方法,提取每帧信号的模糊熵作为相关向量机的输入矢量,同时针对单一核函数对预测分类鲁棒性弱的问题,对不同核函数进行自适应多核组合,融合多个核函数的特性,提高分类精度和鲁棒性。实验结果表明,在低信噪比环境下,基于模糊熵与改进相关向量机的端点检测能更有效地检测出语音的端点。然后,对在语音信号特征提取中常用的两种特征参数,即线性预测倒谱系数和Mel频率倒谱系数进行了研究,针对MFCC在噪声环境下识别性能下降的问题,提出了更能模拟人耳特性的伽马通啁啾滤波倒谱系数(Gamma-chirp Filter Cepstral Coefficient,GCFCC),同时提取每帧信息基音频率,将GCFCC和基音频率数据融合,利用核主成分分析(Kernel Principle Component Analysis,KPCA)转换降维。实验结果表明,本文提出的改进特征提取算法在识别率和计算复杂度性能方面都有一定程度的提高。最后,研究了说话人识别的声学模型系统的构建与分析,针对说话人识别系统声学模型的参数估计与初始化的问题,提出利用最大似然估计与期望最大化算法对初始参数进行估计,针对模型初始参数局部解的问题,提出利用K均值聚类算法进行初始化,最后搭建了完整的基于改进Mel特征的说话人识别系统,通过实验验证了系统方案的可行性。