论文部分内容阅读
随着科技的发展,基于生物特征的人脸、虹膜、瞳孔、指纹以及声纹识别不断发展并取得了重大进展。由于语音数据采集方便、简单、成本低且难以模仿,基于说话人语音信号特征从而实现说话人身份识别的新技术不断涌现,使说话人识别技术的应用越来越多,如公安司法查证、银行交易系统、手机智能支付和声控门等。最近新冠疫情席卷全球,人们纷纷响应专家建议佩戴口罩以防止感染,但是却让以人脸识别来进行身份识别的系统陷入困境;此时说话人识别的优势则得以凸显,因此开展基于语音处理的说话人识别研究具有重要理论价值和实用意义。基于传统特征参数提取和模式匹配的说话人识别存在着太多人为因素,且在数据量增多时模型无法拟合说话人特性。论文开展了利用卷积神经网络算法对增强的语谱图进行训练学习和识别的说话人识别方法研究,主要工作如下:(1)介绍了说话人识别的研究意义,概述了其发展现状,阐述了常用的语音特征提取算法和传统的说话人识别模型,讨论了不同说话人识别模型的优缺点。(2)分析讨论了不同神经网络结构的说话人识别算法。介绍了人工神经网络的原理,讨论了基于深度神经网络、延时神经网络以及卷积神经网络结构的说话人识别,同时讨论了不同激活函数和防止过拟合的方法,确定了后文以卷积神经网络为网络结构的说话人识别思想。(3)结合图像识别思想,将说话人原始语音通过预处理变为二维图语谱信息,并通过图像增强技术对语谱图进行图像增强处理,在Pycharm平台上对几种图像增强算法进行了仿真,分析了各增强算法的优劣,并提出了利用卷积神经网络对增强的语谱图进行训练学习进而辨别身份的算法。(4)搭建了基于神经网络的说话人识别系统。搭建的神经网络以LeNET5网络为基础,通过算法仿真对比不同学习率、迭代次数和网络结构各参数对网络识别率的影响,确定了用于说话人识别的网络结构与参数,进而使用此网络模型对AISHELL中文语音数据库进行了仿真测试,测试表明算法可行。同时设计了基于Pycharm平台的QT Creator说话人识别应用系统,将语谱图的生成与增强、说话人识别结果进行封装,实时地实现说话人识别的可视化。