基于若干声纹信息空间的说话人识别技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:junemeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着说话人识别技术的日臻成熟,研究人员开始专注于实际应用中面临的各种问题,提出合理的解决方案,以不断的提升系统性能,将说话人识别技术真正地推向实用化。而在研究和应用当中,如何获取体现说话人身份的声纹信息,以及如何应用这些信息进行辨识都是当前的热点研究问题。声纹信息是一种超音段信息,承载这种信息的载体分布于对应说话人所说的全部语音数据当中,但是不同的声纹信息载体反映说话人信息的能力并不相同。本文将承载说话人身份信息的某种载体所能表征的所有相关声纹信息,称为声纹信息空间。于是在语音数据中,就存在若干个能够用于说话人识别技术的声纹信息空间。本文将从音素空间,时域空间,频率空间,深层特征空间这四个层面的声纹信息空间入手,展开深入的研究,以求在相应的声纹空间中获得合适的特征表述,确定合适的建模方法。本论文主要的工作如下:1.基于音素空间的说话人识别技术音素片段当中不仅包含文本信息,同时也包含有说话人身份的信息,因此音素片段是一种声纹信息的载体。可以通过这个载体表征的所有声纹信息,被称之为音素空间。本文目的在于,在这个独特的声纹信息空间当中,提取并应用反映说话人身份特性的信息。首先本文借助音素级别的谱包络模版集合,来揭示不同说话人之间的身份差异。进一步的,为了消除单一谱包络模版集合表征的音素空间不完备,造成的声纹信息遗漏的问题,因此本文引进了多组谱包络模版集合来刻画声纹信息。使用音素模版集合刻画声纹信息,类似于在音素空间中进行声纹信息的编码过程,因此我们称这种方法为多语言编码的说话人识别系统。为了量化音素模版代表的说话人信息,本文同时使用最大似然线性回归准则估计出来的映射矩阵和偏移向量来体现这些声纹信息。最后,为了获取多个音素空间中谱包络模版集合之间的信息互补能力,本文尝试了多种合理的信息融合策略。实验表明,在音素空间中,本文提出的方法获得了系统性能上的提升,达到了本文的预期目的。2.基于时域空间的说话人识别技术相同说话人在不同的通信环境下,以及不同的自身状态下,产生的语音数据在表达形式上差异很大。而体现说话人特性的声纹信息,却蕴藏在这些产生在不同时间点的表达形式当中。本文把蕴藏在来自不同时间段语音内部的声纹信息,称为时域空间。常用的说话人识别系统在这种变化的环境下,识别性能会遭受较大的衰减。传统的方法使用因子分析或者扰动属性映射来消除这些不利的影响,而本文试图用非监督自适应模型的方法来解决时域空间中的这一问题。非监督自适应的方法,在模型训练的过程中,不停地使用采集自不同时间段的语音数据来更新模型,这有效的利用了分布在不同时间段上的声纹信息。本文首先回顾了非监督自适应方法在模型域上的实现,介绍了硬判决和软判决这两种更新策略。然后提出了非监督自适应在得分域上的改进算法。通过定义得分先验分布,以及得分置信度,最终得到针对得分规整的一种非监督算法。这种时域空间上说话人识别技术,避免了模型域更新带来的大规模的计算复杂度,同时也可以获得不错的识别性能。3.基于频域空间的说话人识别技术语音信号频谱上的各个频带之间存在着一定的相关特性,这种相关特性不仅揭示了语音的文本信息,同时也反映着说话人身份的信息。这种说话人信息载体所体现的所有声纹信息被称为频域空间。为了揭示频域空间中包含的声纹信息,以及它们所具有的话者识别能力,本文首先通过实验,证明了协方差建模对于描述声纹信息分布起着的较为重要的作用。由于协方差矩阵在真实环境中,面临着参数估计较为困难的情况,本文提出了两种稳定的参数估计方法。在获得了协方差估计之后,通过构造与均值超级向量相似的信息表达方式,得到了协方差超级矩阵。随后,本文提出了两种超级矩阵的距离度量公式,来表征频域空间上的声纹信息的相似程度。最后通过合理的分类器设计,在频域空间获得了与主流均值超级向量系统相似的识别性能,并且与之有一定的互补能力。4.基于深层特征空间的说话人识别技术传统的识别系统中,无论是建模过程还是特征提取,均可以使用浅层结构来解释。本文试图利用深层神经网络结构,来探索蕴藏在频谱信息当中,深层特征空间上的声纹信息。本文首先通过深层神经网络结构,来模拟人类对于声纹信息的感知。深层神经网络结构的训练分为两个部分:一个是非监督的特征扩展操作,在这个阶段中,网络结构将原始的语音数据映射为具有抽象概括能力的深层特征表示。但是经由深层网络结构获得的深层特征表征,并没有清楚的分离说话人信息与其他非说话人的信息。于是本文提出了网络训练的另一个重要步骤,即精细调节操作。这个步骤作用在深层特征空间中,目的是进一步提取声纹信息。为此本文提出了两个限制条件,即通过稀疏编码限制以及说话人距离限制。在深层特征空间,精细调节网络结构,尽可能地分离说话人相关和无关这两部分信息。为了避免深层特征空间中的声纹信息被其他因素干扰,本文选择干净的TIMIT数据库进行实验验证。目前的实验结果表明,基于深层网络结构获取的深层特征空间上声纹信息,具有很好的识别性能,并且与传统的声学特征有很强的信息互补能力。在深层特征空间中获取的实验结果,为进一步研究说话人身份感知的机理提供了有力的支持。
其他文献
通过在夏日多地区开展1∶5万水系沉积物测量,测试分析金、银、铜、铅、锌、钼等元素含量,初步归纳区内6种元素的地球化学特征。认为银、铅、铜、钼等元素的富集变异系数较大,
想象力就是在记忆的基础上通过思维活动,把对客观事物的描述构成形象或独立构思出新形象的能力。简言之,就是人的形象思维能力.爱因斯坦认为:“想象力比知识更重要,因为知识是有限的,而想象力概括世界上的一切,推动着进步,而且是知识进化的源泉。”语文教材中的许多课文都让学生根据课文语言文字产生想象,因此,我们发掘语言课文的有利素材,培养学生的想象能力,发展学生的创造思维和开拓精神。那么,如何在语言教学过程中
骨髓间充质干细胞作为种子细胞在组织工程心脏瓣膜领域成为当前研究热点。本文综述国内骨髓间充质干细胞作为心脏瓣膜种子细胞的综合研究进展。应用计算机检索2000—01/2011—
发展职业技术教育是发展中国家教育反贫困的重要途径,尼日利亚在这一过程中做了系列尝试,包括优化职业教育行政管理、改革职业教育课程设置、提升职业教育师资队伍、扩大职业
城市自来水业投融资机制改革已经成为自来水业规制体系改革的必然趋势,但也存在着一些问题,诸如有效的投融资机制还没有建立起来、外资和民营资本进入的比重仍然较少、融资模
文章利用2002-2014年中国工业企业水平的微观数据,采用Levinsohn and Pertrin法(简称LP半参数法)系统分析和测算中国31个省份全要素生产率(TFP)的变动情况,同时比较跨地区生
新会计准则的颁布把公允价值计量重新引入了会计实务,公允价值观成为新准则体系中的一个亮点。本文讨论了采用公允价值计量的背景和必要性、可行性,并对其在我国的应用中需关
本文详细研究了兖州煤矿区157个表层土壤样本中砷、镉、钴、铬、铜、汞、锰、镍、铅、锌10种重金属污染元素的环境地球化学特征。在此基础上,采用统计分析方法和标准化方法确
《李将军列传》是司马迁《史记》中占有突出地位的传记名文。实际上,这位深受后人尊敬的李将军,有名将 之称而无良将之实。准确地说,李广是一个怀有精湛武功与异常勇敢的冲锋
目前我国电力生产依然是以燃煤发电为主,火电厂的安全稳定运行保证了社会的稳定和经济的发展。因燃料管理模式的问题,许多火电厂出现过燃煤库存不足,煤荒等情况,燃煤管理模式