基于深度学习的说话人识别建模研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：shabaoge

【摘要】

：

说话人识别是利用人的发声特点自动对说话人进行区分,从而鉴别说话人身份的技术。由于其实用性,在金融、安防、公安、司法、军事和信息服务等领域都具有广泛的应用前景。目前

【作者】

：

酆勇

【出处】

：

重庆大学

【发表日期】

：

2016年期

【关键词】

：

说话人识别深度学习受限玻尔兹曼机独立子空间分析度量学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

说话人识别是利用人的发声特点自动对说话人进行区分,从而鉴别说话人身份的技术。由于其实用性,在金融、安防、公安、司法、军事和信息服务等领域都具有广泛的应用前景。目前,复杂背景(多环境、多传输通道)下的说话人识别中,i-vector模型框架融合了高斯混合-通用背景GMM-UBM模型、总体变化i-vector模型和线性判别分析LDA模型等三种模型,其中GMM-UBM模型得到的高斯超向量较好的描述了语音特征的数据分布,i-vector模型通过因子分析将高维的高斯超向量降维得到能表征说话人身份的低维的总体变化因子(即i-vector),LDA模型通过通道补偿将总体变化因子进一步类内距离最小类间距离最大,取得了较好的识别效果,是当前的主流技术。然而,i-vector模型框架中总体变化模型和线性判别分析模型都是建立在说话人信息和通道信息线性可分的假设之上,但实际上仅通过线性空间关系,难于准确地将两者有效分离。这就限制了模型在复杂实际环境中的性能。近年来,得益于深度学习较强的深层信息抽取和非线性建模能力,深度学习理论在诸多机器学习领域都取得了成功的应用。为了进一步提高文本无关说话人识别的性能和鲁棒性,本文将深度学习引入到说话人识别的建模框架中,利用深度学习模型具有的深度非线性结构特征,在因子分析建模层面和通道补偿建模层面分别进行了探索,并对这些方法在海量数据及大规模人群条件下的说话人识别应用进行了性能评估和分析。所取得的主要工作成果和创新点如下:1.在因子分析建模层面,针对i-vector模型基于线性降维难以保留原始数据中非线性特征的问题,提出了一种基于受限玻尔兹曼机的总体变化因子建模方法来替代传统i-vector模型。该方法通过假设受限玻尔兹曼机的可见层和隐层服从高斯分布或伯努利分布,经推导后得到类似i-vector的数学表达式,并在此基础上构建了基于高斯-伯努利和高斯-高斯受限玻尔兹曼机的说话人特征向量提取器(RBM-i-vector),将高维的高斯超向量通过非线性降维映射到低维表示,并附加LDA线性判别分析模型,获得了较好的性能。在增加受限玻尔兹曼机网络层数的条件下,识别性能可进一步提升。此外,基于该建模方法的说话人系统与传统的i-vector系统进行系统融合后,识别性能还可进一步提升。2.在通道补偿建模层面,针对线性判别分析LDA模型线性区分能力不足的问题,提出了一种i-vector空间下基于深度神经网络的非线性度量学习建模方法来替代传统LDA模型。区别于传统的线性度量学习方法,该方法分别采用受限玻尔兹曼机和独立子空间分析网络来堆叠成深度神经网络,通过深度神经网络的非线性函数特性,将特征从原始i-vector空间变换到其它子空间进行通道补偿,同时将度量学习的侧信息约束和深度神经网络结合起来,在此基础上计算两条语音之间的相似性,以获得更好的区分特性。实验证明,该方法可以有效的提高说话人识别建模的区分性,提升说话人识别系统的性能。3.将上述两种基于深度学习的建模方法融合,提出了基于深度受限玻尔兹曼机的总体变化因子建模和基于独立子空间分析网络的深度非线性学习建模相结合的建模方法(RBM_ISA模型),完整替代传统i-vector模型和LDA模型,实现将高维的高斯超向量通过非线性降维得到能表征说话人身份的低维的总体变化因子RBM-i-vector,再采用非线性度量学习分类,进一步提升了说话人识别系统的区分能力,相比上述两种基于深度学习的模型和传统i-vector框架模型,均获得了更好的说话人确认性能。4.针对现有说话人识别系统多是在中小规模数据集基础上进行性能评估,鲜有面向几十万大规模数据集的说话人识别性能评估和分析研究的问题,通过构建一个40万级的大规模真实说话人语音库,对传统基于i-vector模型框架的说话人识别系统以及本文所提出的基于RBM_ISA模型的说话人识别系统的性能进行了评估,给出了40万人大规模声纹库条件下和40万人大规模测试语音条件下的两种说话人识别系统的说话人辨认性能,并分析了信道失配对海量语音说话人识别性能的影响,为说话人识别技术真正走向实用提供了有价值的分析和参考。

其他文献

黑箱法在教学中的运用

期刊

黑箱法培养学生细胞膜蛋白生物学实验教学分子构成显微镜观察

城市地铁施工监测系统的问题及对策

随着城市交通的发展,除了铁路、公路之外,还有地铁的发展进程越来越快。而地铁的施工监测系统对于地铁的安全与在运作来说是非常重要的。文章主要介绍了地铁的施工监测信息系

期刊

地铁施工监测系统对策

极易误诊为胫骨平台外侧撕脱性骨折1例

患者,男,58岁,主因左膝部肿痛伴活动不利2d于2016年7月10日入院。患者2d前不慎摔倒致左膝部内翻及内旋,出现左膝部肿痛伴活动不利,当时无胸闷气急,无恶心呕吐,无头痛头晕。随

期刊

胫骨骨折误诊骨折固定术

浅谈建筑工程安全管理的重要性

建筑工程施工安全管理的首要问题是建立和完善良好的施工安全管理体系,以便使建设项目安全管理走向正规化管理。其中包括提高施工人员的安全意识,加强施工人员安全教育、将安

期刊

建筑工程安全管理重要性

关于军工产品电子元器件质量控制的分析与探讨

在军工产品中,电子元器件质量水平的高低和装备可靠性息息相关,文章正是在分析了军工产品电子元器件质量控制的重要性理论基础上,探讨了如何加强电子元器件质量控制有效地措

期刊

军工产品电子元器件质量控制分析

克孜尔石窟菱格画中的“誓愿”故事

在克孜尔石窟的菱格故事画中出现了许多供养情节,通过对照库木吐喇窟群区第34窟的残存榜题和画面以及参照佛经、对比吐鲁番柏孜克里克石窟的誓愿图,可知这些菱格故事画中存在

期刊

克孜尔石窟菱格画誓愿图

中国农村医疗救助的目标定位与覆盖率研究

依照农村医疗救助的制度安排,所有目标定位群体的人员均可免费参加新型农村合作医疗,其新农合参保费由政府通过专项财政经费来支付。这是实现医疗救助与新农合衔接的首要环节

期刊

医疗救助新农合资助参合覆盖率

含钡玻璃陶瓷LTCC粉体的表面修饰及其对玻璃陶瓷性能的影响

为了降低BaO-TiO2-B2O3-SiO2玻璃陶瓷中钡离子的析出，通过化学沉淀法和硫酸处理法对玻璃陶瓷粉体进行了表面修饰，在玻璃陶瓷粉体的表面形成了一层不溶于水的无机膜（氧化铝或BaSO

期刊

LTCC(Low Temperature Co-fired Ceramics)玻璃陶瓷水基流延工艺粉体表面修饰

透视我国企业培训市场

近年来,中国各大企业掀起一股员工培训热潮,最先是摩托罗拉、IBM、微软等跨国公司对任职人员的培训,由于加入WTO大背景等原因,国内的国企、民营企业一下子爆发出空前的对企业

期刊

企业内训职业培训师

企业采购成本控制研究

在经济迅速发展的当下,如何利用新方法、新思路来控制企业采购成本,于市场内外的衔接过程中实现企业的价值增值,是企业谋得市场发展空间的关键环节。文章将结合企业采购过程

期刊

企业采购成本控制外部内部

基于深度学习的说话人识别建模研究

与本文相关的学术论文