论文部分内容阅读
说话人确认技术用于判断给定语音是否属于某个说话人,它作为一项关键的语音辅助应用技术,现阶段已经受到广泛的重视,并作为身份认证技术普遍应用于各种相关领域。而在已有的各种说话人确认方法中,基于i-vector的概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)的说话人确认方法因其优秀的识别效果和良好的实时性受到了广泛关注,成为目前最主流的研究方法之一。识别建模的关键之一在于对特征分布的拟合,而PLDA建模阶段存在着对i-vector分布的高斯假设,当面对信道畸变、短语音等情况时,这一假设就显得过于苛刻。在基于i-vector的PLDA说话人确认方法中,若无法对i-vector特征进行很好的拟合,会对识别结果的准确率和稳定性产生较大的影响。因而,如何对i-vector的分布进行合理的高斯规整,是该领域的关键研究问题之一。从算法的灵活性和普适性的角度考虑,本文提出了基于KL散度的区分性规整方法(Kullback-Leibler Divergence Divisive Normalization,KL-DN)。该方法不对总变化空间提取的i-vector的初始分布做任何假设,而是通过非参数的方法对i-vector的分布进行估计。同时,为达到PLDA模型中的高斯假设,提出利用KL散度作为i-vector分布与高斯分布间差异性的度量标准,并提出通过一个非线性的转化函数来有效减小这一KL散度。实验基于NIST2008的核心数据集展开,结果表明,i-vector分布与高斯分布之间的KL散度与说话人确认的结果间呈负相关,并且通过本文提出的KL-DN方法,可以有效地减小对应KL散度进而提高识别结果。针对KL-DN面对短语音说话人识别存在的缺陷,在遵循KL散度作为特征分布之间差异性的度量标准的基本思想条件下,我们提出了一种基于旋转的迭代高斯规整方法(General Rotation-based Iterative Gaussianization,GRBIG)来实现特征的高斯规整。该方法通过联合使用边缘高斯化和空间旋转矩阵,对i-vector的分布进行高斯规整。实验结果表明,在NIST2008短语音测试数据各个相关数据集以及NIST08的核心数据集上,说话人确认性能均有不同程度的提升。