论文部分内容阅读
随着科技的进步、互联网的高速发展,声纹识别这一技术在人与电子产品交互的过程中扮演者越来越重要的角色。当下,许多研究人员把目光投向声纹识别这一研究领域中来。声纹识别技术的发展日趋成熟,拥有坚实的理论体系和很高的社区热度。传统的GMM(高斯混合模型)是声纹识别领域中非常经典且重要的一个模型,但由于其对大语音数据的建模能力和对于噪声的处理不好,研究人员开始研究基于深度学习的声纹识别,引入了卷积神经网络(CNN)进行模型的训练。残差网络作为卷积神经网络中的一种,通过使用残差网络训练模型,可以得到不错的效果。本文基于深度学习技术,研究和设计实现了基于深度学习的声纹识别系统,可实现对特定说话人的有效识别。该系统的构建基于Python等高级语言,以Tensorflow,Keras等深度学习框架为基础。本文所提出的基于深度学习的说话人识别系统中,主要包含两个步骤:声纹注册阶段,数据训练阶段和说话人在线识别阶段。声纹注册阶段对用户语音进行采集,接下来在数据训练阶段,首先使用预加重、分帧、加窗算法对语音文件进行预处理,并进行语谱图的计算;然后,利用改进的残差神经网络对输入的特征数据进行训练以提取特征向量;最后在提取阶段完成后,将特征图输入到NetVLAD层中进行聚类,之后使用AMSoftmax损失函数进行评估,然后保存模型。在声纹识别阶段,本系统将采集到的测试语音进行预处理后,输入到已经训练好的模型进行分类识别。此外,本系统还包含以下核心模块:用户登录注册、声纹注册、模型训练,声纹识别等模块,能够最终实现在B/S架构下有效完成用户远程联网进行声纹识别需求的功能。通过理论分析和测试实验,可以发现,本文所设计声纹识别系统与传统系统相比,本文所提出系统使用网络的网络结构进行模型训练以及模型识别,相较于其他卷积神经网络,有更高的准确率,且该系统使用B/S架构,用户在浏览器端即可进行操作,可以满足用户进行远程声纹识别的需求。