论文部分内容阅读
说话人识别是利用人的发声特点自动对说话人进行区分,从而鉴别说话人身份的技术。由于其实用性,在金融、安防、公安、司法、军事和信息服务等领域都具有广泛的应用前景。目前,复杂背景(多环境、多传输通道)下的说话人识别中,i-vector模型框架融合了高斯混合-通用背景GMM-UBM模型、总体变化i-vector模型和线性判别分析LDA模型等三种模型,其中GMM-UBM模型得到的高斯超向量较好的描述了语音特征的数据分布,i-vector模型通过因子分析将高维的高斯超向量降维得到能表征说话人身份的低维的总体变化因子(即i-vector),LDA模型通过通道补偿将总体变化因子进一步类内距离最小类间距离最大,取得了较好的识别效果,是当前的主流技术。然而,i-vector模型框架中总体变化模型和线性判别分析模型都是建立在说话人信息和通道信息线性可分的假设之上,但实际上仅通过线性空间关系,难于准确地将两者有效分离。这就限制了模型在复杂实际环境中的性能。近年来,得益于深度学习较强的深层信息抽取和非线性建模能力,深度学习理论在诸多机器学习领域都取得了成功的应用。为了进一步提高文本无关说话人识别的性能和鲁棒性,本文将深度学习引入到说话人识别的建模框架中,利用深度学习模型具有的深度非线性结构特征,在因子分析建模层面和通道补偿建模层面分别进行了探索,并对这些方法在海量数据及大规模人群条件下的说话人识别应用进行了性能评估和分析。所取得的主要工作成果和创新点如下:1.在因子分析建模层面,针对i-vector模型基于线性降维难以保留原始数据中非线性特征的问题,提出了一种基于受限玻尔兹曼机的总体变化因子建模方法来替代传统i-vector模型。该方法通过假设受限玻尔兹曼机的可见层和隐层服从高斯分布或伯努利分布,经推导后得到类似i-vector的数学表达式,并在此基础上构建了基于高斯-伯努利和高斯-高斯受限玻尔兹曼机的说话人特征向量提取器(RBM-i-vector),将高维的高斯超向量通过非线性降维映射到低维表示,并附加LDA线性判别分析模型,获得了较好的性能。在增加受限玻尔兹曼机网络层数的条件下,识别性能可进一步提升。此外,基于该建模方法的说话人系统与传统的i-vector系统进行系统融合后,识别性能还可进一步提升。2.在通道补偿建模层面,针对线性判别分析LDA模型线性区分能力不足的问题,提出了一种i-vector空间下基于深度神经网络的非线性度量学习建模方法来替代传统LDA模型。区别于传统的线性度量学习方法,该方法分别采用受限玻尔兹曼机和独立子空间分析网络来堆叠成深度神经网络,通过深度神经网络的非线性函数特性,将特征从原始i-vector空间变换到其它子空间进行通道补偿,同时将度量学习的侧信息约束和深度神经网络结合起来,在此基础上计算两条语音之间的相似性,以获得更好的区分特性。实验证明,该方法可以有效的提高说话人识别建模的区分性,提升说话人识别系统的性能。3.将上述两种基于深度学习的建模方法融合,提出了基于深度受限玻尔兹曼机的总体变化因子建模和基于独立子空间分析网络的深度非线性学习建模相结合的建模方法(RBM_ISA模型),完整替代传统i-vector模型和LDA模型,实现将高维的高斯超向量通过非线性降维得到能表征说话人身份的低维的总体变化因子RBM-i-vector,再采用非线性度量学习分类,进一步提升了说话人识别系统的区分能力,相比上述两种基于深度学习的模型和传统i-vector框架模型,均获得了更好的说话人确认性能。4.针对现有说话人识别系统多是在中小规模数据集基础上进行性能评估,鲜有面向几十万大规模数据集的说话人识别性能评估和分析研究的问题,通过构建一个40万级的大规模真实说话人语音库,对传统基于i-vector模型框架的说话人识别系统以及本文所提出的基于RBM_ISA模型的说话人识别系统的性能进行了评估,给出了40万人大规模声纹库条件下和40万人大规模测试语音条件下的两种说话人识别系统的说话人辨认性能,并分析了信道失配对海量语音说话人识别性能的影响,为说话人识别技术真正走向实用提供了有价值的分析和参考。