基于深度学习的说话人识别方法的研究

来源 :东南大学 | 被引量 : 17次 | 上传用户:jlckyang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类社会的发展,人们之间的交互方式越来越多样化,语音信息做为人类特有的生物特征之一,在人类的身份识别或确认上有着重要的地位,有些研究者称之为人类最天然的生物特征。说话人识别技术或者说声纹识别技术是一种依据人类的语音特征进行的身份识别技术。其在很多领域已经有了非常重要的应用,比如互联网、军事安全、远程控制、通信系统、门禁系统等等。自上世纪80年代以来,神经网络迅猛发展。最近几年,多伦多大学教授辛顿提出的深度学习理论在图像识别领域已经取得了非常好的效果,其在mnist手写字数据集上的识别率已经可以高达百分之99。深度学习是一种基于深度即多层神经网络的学习方式,与传统的神经网络相比,深度学习克服了非凸函数陷入局部最小值的缺点,并且可以从底向上学习更好的特征。本文对前馈神经网络、自动编码机、深度信念网络在说话人识别技术上的应用进行了全面分析比较。本人主要完成了以下几方面工作:第一,综述了说话人识别技术的研究历史及现状,分析不同说话人识别技术的优缺点,神经网络和深度学习是说话人识别的崭新方向。第二,研究了说话人识别模型语音预处理阶段的工作,包括分帧、梅尔倒谱频率参数、模型和算法等,详细介绍了MFCC参数的计算过程。第三,探讨了前馈神经网络在说话人识别技术上的应用,分析比较了不同神经层数及神经元个数以及其他参数对识别率的影响,并且提出前馈神经网络与高斯混合模型结合的方法,使神经网络工作在GMM的概率输出空间,获取了不同说话人之间的交互信息,提高了说话人识别率以及模型的鲁棒性。第四,分析了深度学习在说话人识别上的应用。主要分析比较了两种深度学习模型,即自动编码机和深度信念网络的识别效果。证明了深度学习在说话人识别领域是优于普通的前馈神经网络的。首次提出使用降噪自动编码机和受限波尔兹曼机混合模型(HDAE-RBMM)进行说话人识别,研究了其在不同组合状态下模型的性能,证明了使用降噪自动编码机作为浅层模型、受限波尔兹曼机作为深层模型结合了两者的优势,可以有效提高识别率,并且随着网络层数的提升效果越明显。第五,使用整流线性单元代替普通的激活函数对深度网络进行了改进,分别探讨了预训练和未经预训练的情况下深度模型的性能,实验证明使用整流线性单元的深度网络模型可以极大提升训练速度,并且从稀疏度的角度来看,使用整流线性单元的未经预训练的深度网络可以达到和经过预训练的深度模型同样的稀疏度,因而其识别率比使用sigmoid类函数要高许多,甚至可以和经过预训练的深度模型较接近。但是整流线性单元与预训练模型结合的效果并不是十分理想,如何调整预训练模型结构与整流线性单元结合值得后续研究。
其他文献
在分析当前工程咨询业现状的基础上,根据工程咨询业的特点,提出影响工程咨询业竞争力的因素,建立了竞争力评价指标体系,并借鉴瑞士洛桑管理发展学院(IMD)竞争力评价方法对有
职工薪酬支出是企业的成本费用核算的重要部分,随着市场经济的发展,养老保障体系的逐步完善,员工福利的种类也日益多样化,有关员工福利的处理增加了企业会计核算工作的难度,
自中国共产党立党以来,“从严治党”思想就是我党的优良传统和宝贵经验。不同历史时期的中国领导人,根据具体的历史语境进行了反复实践与探索,最终形成了具有中国特色的“从
总结现有地铁票价制定方法,明确地铁票价制定影响因素。应用拉姆齐原理,建立一套完整的地铁票价制定体系和参数标定方法,结合长春地铁实际情况进行"高峰、低峰"差别定价。研
目的分析该院2014-2016年恶性肿瘤患者疾病谱情况及地区差异性特点,为该院细化肿瘤专业,提升科研水平提供基础支持,也为豫北地区有效防治肿瘤疾病提供参考依据。方法采用国际
<正> 患有慢性肾功能衰竭的群体是心血管疾病(CVD)风险性增高的病人群体。许多病人在开始维持性透析治疗时已经存在有症状的心脏疾病。透析病人若合并心血管病,其年死亡率要
2016年11月,河北农业大学用6台12兆瓦电锅炉替代了原有的10台燃煤锅炉,对东西校区和家属区共计100万平方米的区域进行集中供暖。项目全部投运后每个供暖季可替代燃煤13000多吨,
报纸
随着城市管网建设步伐的加快,有必要掌握各类管线的综合地理信息数据。结合江阴市地下空间数据探测项目,本文详细探讨了地下管线探测的技术要求与作业流程,并对测量数据质量
本文试图对国内学术界偏好使用却又屡被误用的寻租理论作出学术澄清。本文认为,完整、准确的寻租理论应由如下四个命题组成:1.市场主体价值指向的租金非仅一种而是有三种,即