论文部分内容阅读
随着说话人识别技术的日臻成熟,研究人员开始专注于实际应用中面临的各种问题,提出合理的解决方案,以不断的提升系统性能,将说话人识别技术真正地推向实用化。而在研究和应用当中,如何获取体现说话人身份的声纹信息,以及如何应用这些信息进行辨识都是当前的热点研究问题。声纹信息是一种超音段信息,承载这种信息的载体分布于对应说话人所说的全部语音数据当中,但是不同的声纹信息载体反映说话人信息的能力并不相同。本文将承载说话人身份信息的某种载体所能表征的所有相关声纹信息,称为声纹信息空间。于是在语音数据中,就存在若干个能够用于说话人识别技术的声纹信息空间。本文将从音素空间,时域空间,频率空间,深层特征空间这四个层面的声纹信息空间入手,展开深入的研究,以求在相应的声纹空间中获得合适的特征表述,确定合适的建模方法。本论文主要的工作如下:1.基于音素空间的说话人识别技术音素片段当中不仅包含文本信息,同时也包含有说话人身份的信息,因此音素片段是一种声纹信息的载体。可以通过这个载体表征的所有声纹信息,被称之为音素空间。本文目的在于,在这个独特的声纹信息空间当中,提取并应用反映说话人身份特性的信息。首先本文借助音素级别的谱包络模版集合,来揭示不同说话人之间的身份差异。进一步的,为了消除单一谱包络模版集合表征的音素空间不完备,造成的声纹信息遗漏的问题,因此本文引进了多组谱包络模版集合来刻画声纹信息。使用音素模版集合刻画声纹信息,类似于在音素空间中进行声纹信息的编码过程,因此我们称这种方法为多语言编码的说话人识别系统。为了量化音素模版代表的说话人信息,本文同时使用最大似然线性回归准则估计出来的映射矩阵和偏移向量来体现这些声纹信息。最后,为了获取多个音素空间中谱包络模版集合之间的信息互补能力,本文尝试了多种合理的信息融合策略。实验表明,在音素空间中,本文提出的方法获得了系统性能上的提升,达到了本文的预期目的。2.基于时域空间的说话人识别技术相同说话人在不同的通信环境下,以及不同的自身状态下,产生的语音数据在表达形式上差异很大。而体现说话人特性的声纹信息,却蕴藏在这些产生在不同时间点的表达形式当中。本文把蕴藏在来自不同时间段语音内部的声纹信息,称为时域空间。常用的说话人识别系统在这种变化的环境下,识别性能会遭受较大的衰减。传统的方法使用因子分析或者扰动属性映射来消除这些不利的影响,而本文试图用非监督自适应模型的方法来解决时域空间中的这一问题。非监督自适应的方法,在模型训练的过程中,不停地使用采集自不同时间段的语音数据来更新模型,这有效的利用了分布在不同时间段上的声纹信息。本文首先回顾了非监督自适应方法在模型域上的实现,介绍了硬判决和软判决这两种更新策略。然后提出了非监督自适应在得分域上的改进算法。通过定义得分先验分布,以及得分置信度,最终得到针对得分规整的一种非监督算法。这种时域空间上说话人识别技术,避免了模型域更新带来的大规模的计算复杂度,同时也可以获得不错的识别性能。3.基于频域空间的说话人识别技术语音信号频谱上的各个频带之间存在着一定的相关特性,这种相关特性不仅揭示了语音的文本信息,同时也反映着说话人身份的信息。这种说话人信息载体所体现的所有声纹信息被称为频域空间。为了揭示频域空间中包含的声纹信息,以及它们所具有的话者识别能力,本文首先通过实验,证明了协方差建模对于描述声纹信息分布起着的较为重要的作用。由于协方差矩阵在真实环境中,面临着参数估计较为困难的情况,本文提出了两种稳定的参数估计方法。在获得了协方差估计之后,通过构造与均值超级向量相似的信息表达方式,得到了协方差超级矩阵。随后,本文提出了两种超级矩阵的距离度量公式,来表征频域空间上的声纹信息的相似程度。最后通过合理的分类器设计,在频域空间获得了与主流均值超级向量系统相似的识别性能,并且与之有一定的互补能力。4.基于深层特征空间的说话人识别技术传统的识别系统中,无论是建模过程还是特征提取,均可以使用浅层结构来解释。本文试图利用深层神经网络结构,来探索蕴藏在频谱信息当中,深层特征空间上的声纹信息。本文首先通过深层神经网络结构,来模拟人类对于声纹信息的感知。深层神经网络结构的训练分为两个部分:一个是非监督的特征扩展操作,在这个阶段中,网络结构将原始的语音数据映射为具有抽象概括能力的深层特征表示。但是经由深层网络结构获得的深层特征表征,并没有清楚的分离说话人信息与其他非说话人的信息。于是本文提出了网络训练的另一个重要步骤,即精细调节操作。这个步骤作用在深层特征空间中,目的是进一步提取声纹信息。为此本文提出了两个限制条件,即通过稀疏编码限制以及说话人距离限制。在深层特征空间,精细调节网络结构,尽可能地分离说话人相关和无关这两部分信息。为了避免深层特征空间中的声纹信息被其他因素干扰,本文选择干净的TIMIT数据库进行实验验证。目前的实验结果表明,基于深层网络结构获取的深层特征空间上声纹信息,具有很好的识别性能,并且与传统的声学特征有很强的信息互补能力。在深层特征空间中获取的实验结果,为进一步研究说话人身份感知的机理提供了有力的支持。