论文部分内容阅读
自动说话人识别技术在众多需要语音辅助的应用下,已发展成为越来越重要的现代生物认证技术。自动说话人识别最主要的挑战来自处理测试语料的缺失以及获取语音时环境和信道的差异问题。之前的研究表明,对于训练和测试声学环境一致的高质量语音已可以获得很好的结果,比如采用干净的宽带语音和高斯混合模型(Gaussian Mixture Model, GMM)组成的说话人辨认和确认都能获得很高的识别率。然而现实生活中,往往遇到语料缺失、信道失配甚至远距离等环境,此环境下基于GMM的说话人识别系统性能严重下降,很难达到让人满意的结果。为了进一步提高说话人识别的实用性,鲁棒性研究是说话人识别领域至关重要的研究热点。目前,训练及测试信道变化是阻碍说话人识别发展的最大障碍,该变化可以是:训练与测试语音分别来自不同类型的传输信道;信道类型相同却来自不同类型的采集设备(话机、麦克风等);训练与测试时采集环境(安静、噪声)或采集方式(近距离、远距离)不同等。本文在信道变化方面的研究,主要集中在远距离说话人辨认、训练与测试语音传输信道不同的说话人确认方面。本文的主要工作和创新成果点集中在以下几个方面:(1)针对短语音说话人辨认训练及测试语料不充分的特点,对特征参数和GMM模型进行优化和改进,提出一种基于局部模糊主成分分析(Principal Component Analysis, PCA)的GMM说话人辨认方法。该方法采用特征组合代替单一特征,以提高有效特征维数来弥补特征样本的不足,并用局部模糊PCA对组合特征进行有效降维,在对识别率影响很小的前提下,降低了系统的时空复杂度。原始特征维数由48维优化到16维,同时建模时间减少了近65%。本文还对GMM参数初始化方法进行改进,提出分裂法与模糊K均值聚类相结合方法。该改进算法与传统初始化方法相比能有效提高短语音说话人辨认性能。(2)当测试语音在远距离环境采集时,为提高远距离说话人辨认的鲁棒性,提出了三种补偿技术。第一种补偿在特征提取前采用谱减法去除测试语音的后期混响以达到语音增强的目的,使之尽量减小与训练语音的质量差异;第二种补偿是在特征提取阶段采用特征弯折方法,使同一个说话人的训练和测试语音的特征空间分布尽量吻合;第三种补偿技术是在短语音说话人辨认的研究基础上,同样对GMM模型参数初始化进行改进,提出分裂法与K均值聚类相结合的模型补偿方法。三种补偿方法分别对应说话人辨认的语音增强、特征提取及模型建立三个重要阶段,与传统GMM方法相比,很大程度上提高了远距离说话人辨认的系统性能。(3)在目前解决信道变化环境下说话人确认的最流行算法联合因子分析(JointFactor Analysis, JFA)基础上,对传统JFA模型训练进行改进,提出一种基于本征信道的空间拼接技术,以解决在训练时因各种信道的语音不均衡而导致的说话人确认性能下降问题。该拼接算法对每一种信道下的语音训练成相应的本征信道空间矩阵,接着对训练好的各种信道下的本征信道空间矩阵进行拼接,作为最后JFA模型中本征信道的初始化,再通过训练得到最终本征信道矩阵。在JFA技术的基础上,又进一步研究了Ⅰ-矢量(Identity-Vector, I-Vector)说话人确认技术。分析目前存在于I-Vector上的多种信道补偿技术,提出了线性鉴别分析(Linear Discriminant Analysis, LDA)与类内协方差规整(Within-Class Covariance Normalization, WCCN)相结合的信道补偿技术,该算法结合了LDA的最大区分性和WCCN的最小化总体代价的优点,能有效提高I-Vector说话人确认性能。(4)在I-Vector空间应用概率线性鉴别分析(Probabilistic Linear Discriminant Analysis, PLDA)模型解决说话人确认中说话人和信道差异的基础上,本文提倡采用一种无压缩的I-Vector形式。一个I-Vector本质上是来自一个语音段的低维矢量,它包含了说话人和信道的信息。当PLDA应用于I-Vector时,有两次降维——第一次是I-Vector的提取过程,第二次是PLDA模型训练过程。在PLDA训练以及计算得分的过程中保持I-Vector在超矢量空间的完整维度,可以避免不必要的信息损失。在无压缩的I-Vector上采用PLDA的缺点是要计算超大矩阵的逆,本文提出一种把超大矩阵分解成子矩阵的简化求逆方法。本文还提出一种在超矢量空间中的基于排名的高斯化规整技术,可作为PLDA建模前的特征规整方法。