论文部分内容阅读
声纹是一种重要的生物特征,声纹识别也称为说话人识别。借助于声纹识别的门禁系统安全可靠、使用便捷,是目前研究的热点问题。本文以门禁系统中的声纹识别为研究问题,在阐述门禁系统的基本结构和工作流程的基础上,详细给出了门禁系统声纹识别模块设计与实现。门禁系统中的声纹识别分为声纹注册阶段和声纹识别阶段两部分。声纹注册主要完成对说话人的数据采集、预处理及模型建立。在声纹识别阶段,根据训练获得的说话人声纹模型对说话人进行检测。整个算法核心为声纹注册和识别部分的说话人识别模型建立。为了从说话人音频数据中有效获得特征,本文采用预加重、分帧加窗对语音信号进行预处理,通过傅里叶变换将语音信号由时域转换到频域,考虑到MFCC未充分反映语音动态特性的问题,将多窗谱估计和一阶二阶差分应用到特征提取过程中,给出了修正的MFCC频谱图。在此基础上,以获取的频谱图为数据源,建立了声纹识别的卷积神经网络模型,并在TIMIT与自建数据集上验证了模型的有效性。通过实验发现,在噪声情况下,声纹识别准确率会有较大降低。针对这一问题,本文将含有噪声的声纹识别划分为三个过程:噪声类型识别、噪声去除、声纹识别。分别采用BP神经网络模型实现了噪声类型识别,采用LSTM模型实现了噪声去除,采用卷积神经网络完成了声纹识别。最后通过实验验证了本文提出方案的有效性。