基于深度循环网络的声纹识别方法的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:baihe8302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹识别(Voiceprint Recognition)也被称之为说话人识别(Speaker Recognition),是当前热门的一种基于生物特征的身份识别技术之一。说话人的语音波形能够反映该说话人的生理和行为特征,声纹识别就是根据语音波形中的特征参数,来识别待测语音所对应的说话者身份。声纹识别可以作为多因素识别的一种补充,并且声音在取样过程中仅需要麦克风即可,声纹识别的数据采集更加方便,采集设备造价低廉,而且在只有声音数据的场景下,声纹识别显得尤为重要。声纹识别是一种经济、可靠、便捷、安全的身份鉴别方式。声纹识别已经开始应用于各种智能设备,用于用户身份的识别,如使用声纹实现社交软件的登录,智能音响中的语言助手,智能车载系统中的语音助手等等。本文通过对声纹识别技术的发展历程和研究现状进行了研究分析,改进了现有声纹识别的端点检测过程,提出了一种结合了卷积神经网络(Convolutional Neural Network,CNN)和深度循环网络(Deep Recurrent Neural Network,DRNN)的声纹识别方案,称为CDRNN。CDRNN结合了卷积神经网络和循环神经网络的优势,用于移动终端声纹识别应用。本文主要研究内容如下:(1)针对处于噪声环境下的语音信号的端点检测问题,提出一种结合了多窗谱减谱法、能熵比法以及双门限法的改进算法,该算法首先通过多窗谱减法对含噪信号进行降噪处理,得到较为纯净的有效语音信号,然后再采用能熵比算法进行语音能量的计算,最后通过双门限法进行后续的端点检测。(2)构建了CNN网络,利用CNN长于处理图像的优势,将语音信号转化为语谱图进行处理,从语谱图中提取语音信号的个性特征。探究了不同层数CNN网络的识别率。(3)构建了DRNN网络,将CNN网络对语谱图处理后的输出作为DRNN的输入完成进一步的时序建模。并探究了每层节点数以及层数对识别率的影响。(4)将CDRNN方案和其他常用的声纹识别方案进行了对比,实验结果表明了CDRNN方案能够获得比目前比较常用的GMM-UBM、GMM-DNN等其他常用的模型方案更好的识别准确率。
其他文献
目的通过建立跳台反射法耳鸣动物行为学模型,探讨水杨酸致大鼠耳鸣的主要产生部位。方法 40只健康Wistar大鼠,随机分为实验组和对照组,每组20只。两组动物分别建立跳台反射行
针对起重机检测不便及检测数据有限的现状,设计了起重机安全状态监测系统。该系统运用工控机及PLC控制,采用分布式监测方案,利用方便灵活的无线传输方式,基于Visual C++开发
目的:探讨维持性血液透析的尿毒症患者血尿酸水平与高血压的关系,血尿酸对高血压的影响机制以及控制尿酸水平是否可以成为防治高血压的新途径。方法:选择115例维持性血液透析的
<正>西番莲属(PassifloraLinn),为西番莲科(Passifloraceae)内最大的一个属,约有400个品种,均为草本或木质藤本多年生植物,其中可以食用的约有60余种。西番莲属植物主产美洲
课程改革与课堂文化重建是一种共生共在的互动关系.课堂文化重建的价值诉求是为了促进每个学生的最大发展,使课堂呈现出一种生活常态,充满生命的涌动与智慧的探险.课堂文化重
目的探讨耳鸣患者脑PET18F-FDG代谢的相关脑区。方法通过对41例耳鸣患者及40例健康对照组进行PET-CT检查,行踪剂为18 F-FDG,结果用统计参数图(SPM)软件进行统计分析,确定与耳鸣
随着我国城市化水平的不断提高,以及人民对于美好生活需求的日益增长,以休闲、景观、旅游为主要功能的城市人工景观水体数量和地位正在逐步提升,但是水体状况却不容乐观。因
电石炉气、焦炉煤气及黄磷尾气等工业废气中含有高含量的HCN,现有的吸收法、吸附法、燃烧法、催化氧化法等HCN净化方法存在不足。介绍了HCN催化水解新技术及其工业应用,该法
为充分认知创新团队的固有特质,推动创新团队科学全面管理,首先归纳出创新团队主客体要素的特殊层次属性及研究视角的统一需求,而后创造性地引入并融合界面管理及和谐管理,对
近年来语音识别技术不断发展,应用的方面也越来越多,说话人识别技术作为一种重要的身份认证方法也受到了很多的关注。研究人员将深度学习用于说话人识别并取得了显著的研究成