基于深度学习的说话人识别研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:juyang0303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代社会,人们获取信息越来越容易,手段越来越多,随之产生的是隐私保护更为迫切,因此对加密的要求也越来越高。如今,除了传统的指纹加密、字符加密等外,利用语音来识别身份作为加密的方式也引起了人们的兴趣,因而说话人识别也越来越受到重视。本文主要研究说话人识别中的说话人确认,即判断某段语音是否为指定的说话人所说,且核心研究是文本相关的说话人确认(要求注册和测试时的说话人和说话内容都正确才可通过),同时会有少部分文本无关实验和研究。在说话人确认技术中,作为最经典的GMM-UBM系统和目前最先进的i-vector系统,前者实现方式简单易操作但性能很难拔尖,后者在文本无关的说话人系统中表现优越但在文本相关的说话人系统中却不如GMM-UBM。2006年Hinton提出了深度信念网络无监督训练算法,使得深度学习作为一个新的领域出现在机器学习研究中。深度学习在语音识别等领域的成功应用,也引起了说话人识别领域的关注。本文将研究深度学习模型在说话人确认系统中的应用,基于GMM-UBM和i-vector两个基线框架下融入深度学习模型。  在GMM-UBM框架下,研究对象是深度特征,即由深度学习模型隐层输出的再经过一些前端处理后的特征,尤其是深度特征与频谱特征拼接形成的tandem深度特征。在文本相关条件下,本文首次全面地将深度特征包括tandem深度特征用于GMM-UBM说话人确认中,而且取得了较高地性能提升,最好的结果EER提升了50%以上。同时,文本无关条件下的实验也验证了深度特征的有效性。  在i-vector框架下,主要针对其在文本相关条件下的性能不足,提出了两种完全在深度神经网络框架下提取说话人向量的方法:经联合训练说话人网络和文本内容网络而得到的j-vector和基于神经网络基分解的s-vector。其中j-vector取得了文本相关的说话人系统性能上的进一步提升,超过了基于tandem深度特征的GMM-UBM系统。另外,针对文本无关的i-vector系统,本文在利用深度神经网络优化i-vector提取上进行了一定的尝试。  基于GMM-UBM和i-vector两个基线框架,本文利用深度特征和多任务训练的深度结构在文本相关的说话人确认中取得了很好的效果。
其他文献
本文针对我国油田开采自动化的管理需求,在同当前国内电力通信领域研究较多的通信技术特点的对比分析基础上,设计了基于电力线双向工频通信技术的终端通信模块,该电路能够应
不断增长的网络规模和链路带宽使得DDoS攻击朝着大规模化方向发展,并加剧了攻击检测和处理的难度。大规模DDoS攻击检测的关键是对攻击流量的汇聚过程进行有效的遏制,当前主要
米波雷达在反隐身、抗反辐射导弹方面具有明显的优势。但是,米波雷达也有其不足之处,例如波束宽、测量精度和分辨率低等,而综合脉冲与孔径雷达(SIAR)作为一种新型米波分布阵
强震前存在地震电磁异常现象已被大量强震震例所证实,分析地震电磁前兆已成为地震短临预测的有效手段。同时,伴随着国际地震电磁卫星的迅速发展,开展基于卫星地震电磁数据处
纠错编码是数字通信系统和计算机系统的重要组成部分,现代通信系统要求能够对话音、数据以及图像等大数据信息量实现高速实时传输,同时无线与移动通信应用的持续快速发展,使
视频监控系统是公共安全技术防范系统的重要组成部分,它被广泛应用于国防、治安、交通、电力、工业控制等多个领域。视频监控系统中的运动目标检测技术融合了图像处理、模式
信号截获与分析是电子对抗的基础,而截获信号方位估计则是信号截获与分析的重要内容。截获系统通常是在目标信号参数未知的情况下进行工作。如何实现宽频带大视角高精度测向,这
合成孔径雷达(SAR)是一种通过脉冲压缩技术和综合孔径原理获得二维高分辨率图像的技术,它在经济、科学研究和军事领域都有广阔的应用。弹载SAR是合成孔径雷达的一个重要分支,
Ad Hoc网络是指由若干带有无线收发信机的节点构成的一个无中心的、多跳的、自组织的对等式通信网络,它可以不依赖已存在的网络基础设施而快速展开,自适应组网,各节点可以自
随着手机的普及,包含着地理位置信息的手机信令数据可以很好地刻画居民的出行轨迹,而这些轨迹信息又可进一步支持基于位置的社交网络、智能交通系统和智慧城市等应用。显然,