论文部分内容阅读
随着人类社会的发展,人们之间的交互方式越来越多样化,语音信息做为人类特有的生物特征之一,在人类的身份识别或确认上有着重要的地位,有些研究者称之为人类最天然的生物特征。说话人识别技术或者说声纹识别技术是一种依据人类的语音特征进行的身份识别技术。其在很多领域已经有了非常重要的应用,比如互联网、军事安全、远程控制、通信系统、门禁系统等等。自上世纪80年代以来,神经网络迅猛发展。最近几年,多伦多大学教授辛顿提出的深度学习理论在图像识别领域已经取得了非常好的效果,其在mnist手写字数据集上的识别率已经可以高达百分之99。深度学习是一种基于深度即多层神经网络的学习方式,与传统的神经网络相比,深度学习克服了非凸函数陷入局部最小值的缺点,并且可以从底向上学习更好的特征。本文对前馈神经网络、自动编码机、深度信念网络在说话人识别技术上的应用进行了全面分析比较。本人主要完成了以下几方面工作:第一,综述了说话人识别技术的研究历史及现状,分析不同说话人识别技术的优缺点,神经网络和深度学习是说话人识别的崭新方向。第二,研究了说话人识别模型语音预处理阶段的工作,包括分帧、梅尔倒谱频率参数、模型和算法等,详细介绍了MFCC参数的计算过程。第三,探讨了前馈神经网络在说话人识别技术上的应用,分析比较了不同神经层数及神经元个数以及其他参数对识别率的影响,并且提出前馈神经网络与高斯混合模型结合的方法,使神经网络工作在GMM的概率输出空间,获取了不同说话人之间的交互信息,提高了说话人识别率以及模型的鲁棒性。第四,分析了深度学习在说话人识别上的应用。主要分析比较了两种深度学习模型,即自动编码机和深度信念网络的识别效果。证明了深度学习在说话人识别领域是优于普通的前馈神经网络的。首次提出使用降噪自动编码机和受限波尔兹曼机混合模型(HDAE-RBMM)进行说话人识别,研究了其在不同组合状态下模型的性能,证明了使用降噪自动编码机作为浅层模型、受限波尔兹曼机作为深层模型结合了两者的优势,可以有效提高识别率,并且随着网络层数的提升效果越明显。第五,使用整流线性单元代替普通的激活函数对深度网络进行了改进,分别探讨了预训练和未经预训练的情况下深度模型的性能,实验证明使用整流线性单元的深度网络模型可以极大提升训练速度,并且从稀疏度的角度来看,使用整流线性单元的未经预训练的深度网络可以达到和经过预训练的深度模型同样的稀疏度,因而其识别率比使用sigmoid类函数要高许多,甚至可以和经过预训练的深度模型较接近。但是整流线性单元与预训练模型结合的效果并不是十分理想,如何调整预训练模型结构与整流线性单元结合值得后续研究。