论文部分内容阅读
说话人识别又被称作声纹识别,是生物识别研究的一个重要方向。近年来,随着生物技术和信息技术的高速发展,语音识别技术也日渐成熟并逐步得到普及,使得用语音与计算机之间的交流也成为了一种现实。在此过程中,用于研究说话人识别的理论和算法也在不断提出和改进。其中,高斯混合模型(GMM)由于其识别性能良好、方法简单和复杂度小,在目前说话人识别领域中应用最为广泛。经典的GMM在对每个说话人建立模型时,其混合阶数K与具体应用有关,通常由人根据实验结果给定,因此具有一定的随意性。针对在说话人识别过程中,经典的GMM混合阶数的确定具有一定随意性的问题,本文提出采用吸引子传播聚类方法(AP聚类)自动获取GMM的阶数,进而实现说话人识别的方法。这个方法避免了人为实验摸索去获得GMM的混合阶数,显著提高了说话人识别的精度和效率。本文的主要工作如下:首先,本文介绍了说话人识别的相关背景知识,以及其研究的意义;分析了说话人识别的研究现状、发展趋势以及存在问题。其次,本文详细阐述了语音信号的预处理和特征提取的过程。其中,语音信号的预处理过程主要包括语音采样、数字化、预加重、分帧加窗和端点检测。然后介绍了语音信号特征参数的分类,并分析了线性预测系数(LPC)、线性预测倒谱参数(LPCC)、梅尔频率倒谱系数(MFCC)三种常用的特征参数的优缺点。第三,本文对说话人识别模型的建立进行了深入研究,详细阐述了矢量量化模型(VQ)、隐马尔可夫模型(HMM)和高斯混合模型(GMM)等常用建模方法的基本原理。第四,本文给出了说话人识别系统的设计流程图。然后,详细介绍了AP (Affinity Propagation,吸引子传播)聚类算法基本原理,并给出了利用AP聚类算法自动获取GMM混合阶数的具体实现过程。首先,采用Mel频率倒谱系数法(MFCC)与差分倒谱相结合的方法,提取语音特征参数;其次,采用吸引子传播聚类方法(AP聚类)对语音特征参数进行聚类处理,从而自动获得GMM的阶数;在此基础上进行GMM模型的训练。第五,本文对模型进行了实验并对实验结果进行了分析。本文采用训练好的GMM模型对Timit标准语音库以及自制网络志愿者语音库进行说话人识别测试实验,通过实验来验证AP聚类的有效性和得到的GMM混合阶数K的合理性。实验结果显示,经典的GMM阶数K为32和由AP聚类算法获得阶数K,两种方法的识别时间分别为0.06s和0.09s,识别准确率分别为90.4%和97.6%。实验结果表明,比起通过实验探索再凭经验值选取混合阶数K的方法,采用AP聚类算法自动获取GMM混合阶数K,可以在识别时间大致相同情况下得到更优的识别效果。也就是说,引入AP聚类自动获取GMM的阶数,可以显著提高说话人识别的精度和效率。第六,对本文所做的工作做出了总结,同时为后续的研究给出建议。