基于不同发声方式的声纹确认算法研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:jlckyang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹识别是语音信号处理领域重要的研究方向,目前最重要的应用是在语音中获得说话人身份,在银行、公安系统和智能家居等领域广泛应用。虽然目前声纹识别技术得到快速发展,越来越多的声纹识别技术不断被应用到实际的智能语音相关产品和服务中,但在实际应用中,现有技术仍然面临诸多挑战。如合成语音和录音重放语音对声纹识别系统进行攻击就是其中最重要的挑战之一。另一方面,注册和测试语音的声学环境不匹配的声纹漂移现象也会严重导致声纹识别系统性能下降。基于以上问题,本文围绕声纹识别领域的声纹确认任务,从话者不同发声方式的角度来探究声纹特征的鲁棒性,首先构建了一个不同发声方式的声纹数据库,然后在此基础上探究了基于传统的高斯混合模型,动态时间规整以及深度学习的声纹确认系统性能。主要工作及创新如下:首先,构建了基于不同发声方式的声纹确认语料库。因为当前开源语料库的缺失,没有带非正常的发声方式语音的语料用于声纹确认系统的构建,因此构建含多样化的发声方式的声纹确认语料库是本文的基础。基于本语料库,在不同的声学特征参数空间研究了不同发声方式的语音对于提取说话人身份信息的区分性。结果表明,在一定程度上,非正常说话发声方式的语音比正常说话语音对于确认说话人身份信息而言更具有区分性。其次,构建了基于传统识别模型的声纹建模系统。详细介绍了特征提取、特征预处理、动态时间规整算法、通用背景模型的训练方法、最大后验似然估计的自适应过程及其后端得分算法。探讨了文本相关和文本无关声纹确认任务在传统的声纹识别系统表现。实验结果表明,动态时间规整算法和高斯混合模型在相关的声纹确认任务中表现良好。再次,构建了基于深度学习的声纹确认系统。探讨了使用时延神经网络和中间统计层的方法直接提取完整语音的统计量作为句子级别的输入来表征语音中所含的声纹信息的方法。实验结果表明,该方法的性能超越传统声纹识别系统,具体而言,本文研究的系统在多样化发声方式发声的语料库上,哼唱和歌唱发声方式能达到与正常说话方式相近的等错误率,甚至在一定程度上非正常发声方式的语音比正常说话发声方式的语音更适合声纹建模。本文在传统的声纹确认理论基础上,提出基于多样化发声语音的声纹确认研究。本研究的目的是解决声纹确认系统在正常说话语音的条件下易被攻击的弱点和探究不同发声方式的语音声学漂移现象对声纹系统的影响。研究内容为后续声纹确认研究的多样性提供了参考,从新的角度解决声纹确认存在的一些问题。
其他文献
新时期以来的儿童诗呈现了前所未有的蓬勃发展的态势。从审美层面上说,当前的儿童诗呈现出三大趋向:一是艺术表现世界不断得到拓展;二是表现形式更趋多样化,艺术风格更趋个性
随着2016年底中央经济工作会议对房地产行业的“房子是用来住的,不是用来炒的”的定位的提出,有与其相对应的三大基调:房屋回归居住属性,抑泡沫防风险,建立长效机制也呼之欲出成为2017年房地产发展的重点。  国务院新闻办公室于2017年2月23日在国务院新闻办新闻发布厅举行新闻发布会,请住房和城乡建设部部长陈政高介绍房地产和棚户区改造有关情况,并答记者问。  易居研究院智库中心研究总监严跃进在接受《
国内的网络游戏市场,基本形成了腾讯和网易主导的格局,移动化、IP化趋势为网络游戏带来新的活力。
本文采用微弧氧化技术,选择Na3PO4--Ca[C3H7O6P]体系电解液,在Mg-8Li-2Ca合金表面制备了微弧氧化膜层,并系统研究电压、频率、甘油磷酸钙浓度、时间、占空比五种参数的变化对微
学位
随着冬奥会进入“北京时间”和“3亿人参与冰雪运动”目标的不断推进,中国冰雪旅游发展已然进入了快速发展的轨道,成为旅游产业中的一大新兴产业,而滑雪旅游作为冰雪旅游的核心项目之一,也在逐渐褪去“贵族运动”的外衣,逐渐受到更多人的关注,但与此同时,滑雪旅游需求的增加对我国滑雪场的发展与经营水平也带来了巨大的挑战。游客作为滑雪旅游的体验者,其评论包含了巨量的信息,可用于衡量我国滑雪场的发展与经营水平,因此
随着社会经济和科学技术的不断发展,人们逐渐进入了大数据时代。在大数据时代下,高校思想政治工作也受到了重要影响,既有新的机遇,也有长久的挑战。高校应该利用大数据环境建