基于深度学习的说话人识别研究

来源 :北京邮电大学 | 被引量 : 20次 | 上传用户:guofy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,说话人识别在深度学习背景下不断有新突破和新进展。目前占主导地位的是以身份认证矢量I-vector为基础的说话人识别系统。本文重点研究了如何改进传统特征参数,以及如何通过深度学习对说话人识别建模这两个问题。从不同的输入类型和不同的神经网络两个方面出发,探究系统识别性能。研究如何利用深度学习消除人类感知语音和计算机处理语音之间的辨识偏差鸿沟,如何拉近计算机所能学习到的听觉特征和人所能感知的特征之间的距离,实现计算机更接近于基于理解的人类识别结果这一目标。基于以上研究重点,本文内容包括以下几个部分:(1)研究并改进了基于I-vector的说话人识别算法研究传统特征提取算法,设计并搭建了基于I-vector的说话人识别系统,分析现有的I-vector优缺点,在此基础上改进I-vector身份认证矢量的提取过程,为之后作为输入,和不同神经网络结构连接搭建说话人识别系统作铺垫。(2)研究了基于LSTM和DBN的说话人识别方法构建时序网络长短时记忆网络LSTM模型和静态的深度置信网络DBN的说话人识别模型,最优化设置网络参数值以及每一层网络的输入输出节点数,将普通特征参数和改进后的身份认证矢量作为输入,探讨不同层数的深度置信网络和不同特征参数类型组合后对说话人识别结果的影响。(3)研究了基于语谱图和CNN的说话人识别方法将不同语音段的语谱图通过一定的采样,统一至相同的大小,消除不同长度音频时序不同的问题,将之作为CNN的VGG网络和残差网络的输入,最优设置两个网络结构的层数和节点设置,进行说话人识别实验,探讨在CNN网络下能否使说话人识别系统性能得到提升。并且进行网络融合尝试,增加双层DNN网络,验证性能是否有提升。本文在研究了传统特征参数身份认证矢量的基础上,重点探究了深度学习的说话人识别建模问题,将传统特征和深层学习架构联系在一起,对不同特征之间的系统性能横向和纵向进行了对比,探究对说话人识别系统来说最优的特征参数,哪种参数能最大化保留说话人个性信息,更有身份辨识度,以及哪种神经网络结构最适合说话人识别系统。
其他文献
随着我国科学技术的不断进步,智能化产品如雨后春笋般涌现,智能化已经成为社会发展的方向,电力行业也不除外。智能电网的出现,势必会刮起智能狂潮,发展走向将在不同程度上影
近年来,旅游业作为现代服务业的重要组成部分得到了快速发展,在这一背景下,也对风景园林建设产生了巨大的影响。本文从概括我国旅游业发展整体状况入手,通过分析旅游业发展与
语音识别是一种易于令人接受的生物认证识别技术,近几年发展迅速,被广泛应用于安保、声纹指令、语音锁、司法鉴定、身份认证、语音听写,语音合成,汉语命令识别等领域,其中,汉
本文总结了鸡新城疫病的检疫方法,常用的检疫方法有病毒分离培养、血凝试验(HA)、血凝抑制(HI)试验、荧光抗体检测和PCR等,由于病毒表面有血凝素,对鸡红细胞有凝集作用,通过