论文部分内容阅读
声纹识别(Voiceprint Recognition)也被称之为说话人识别(Speaker Recognition),是当前热门的一种基于生物特征的身份识别技术之一。说话人的语音波形能够反映该说话人的生理和行为特征,声纹识别就是根据语音波形中的特征参数,来识别待测语音所对应的说话者身份。声纹识别可以作为多因素识别的一种补充,并且声音在取样过程中仅需要麦克风即可,声纹识别的数据采集更加方便,采集设备造价低廉,而且在只有声音数据的场景下,声纹识别显得尤为重要。声纹识别是一种经济、可靠、便捷、安全的身份鉴别方式。声纹识别已经开始应用于各种智能设备,用于用户身份的识别,如使用声纹实现社交软件的登录,智能音响中的语言助手,智能车载系统中的语音助手等等。本文通过对声纹识别技术的发展历程和研究现状进行了研究分析,改进了现有声纹识别的端点检测过程,提出了一种结合了卷积神经网络(Convolutional Neural Network,CNN)和深度循环网络(Deep Recurrent Neural Network,DRNN)的声纹识别方案,称为CDRNN。CDRNN结合了卷积神经网络和循环神经网络的优势,用于移动终端声纹识别应用。本文主要研究内容如下:(1)针对处于噪声环境下的语音信号的端点检测问题,提出一种结合了多窗谱减谱法、能熵比法以及双门限法的改进算法,该算法首先通过多窗谱减法对含噪信号进行降噪处理,得到较为纯净的有效语音信号,然后再采用能熵比算法进行语音能量的计算,最后通过双门限法进行后续的端点检测。(2)构建了CNN网络,利用CNN长于处理图像的优势,将语音信号转化为语谱图进行处理,从语谱图中提取语音信号的个性特征。探究了不同层数CNN网络的识别率。(3)构建了DRNN网络,将CNN网络对语谱图处理后的输出作为DRNN的输入完成进一步的时序建模。并探究了每层节点数以及层数对识别率的影响。(4)将CDRNN方案和其他常用的声纹识别方案进行了对比,实验结果表明了CDRNN方案能够获得比目前比较常用的GMM-UBM、GMM-DNN等其他常用的模型方案更好的识别准确率。