论文部分内容阅读
随着社会的进步与互联网技术的快速发展,身份认证技术的应用场景愈加复杂,传统的身份认证技术已不能满足人们的现实需求,社会亟需一种安全且便捷的身份认证技术。声纹识别技术是生物识别技术的一种,较传统的身份认证技术具备着更高的安全性与便捷性,并且相对于人脸识别、指纹识别等其它生物识别技术其应用成本与隐私侵犯性更低、更容易被人们接受,因此声纹识别技术是一种极具应用前景的身份认证技术。声纹识别技术虽然有着诸多优点,但是传统的声纹识别技术却存在着实现过程复杂、识别准确率低等问题。近年来,随着人工智能的快速发展,深度学习方法以其优越的性能正逐渐取代声纹识别领域中传统的统计学习方法,并成为声纹识别领域的研究热点。本文主要研究了基于深度学习的声纹识别方法,将时空融合的特征提取方法与通道注意力机制引入声纹识别领域并提出了三种声纹识别方法,分别为基于ResNet-GRU的声纹识别方法、基于ECA-DenseNet的声纹识别方法以及基于ECA-DenseNet-GRU的声纹识别方法。本文的创新内容如下:(1)本文提出了一种基于ResNet-GRU的声纹识别方法。考虑到声纹特征本质上是一个时间序列数据,部分方法在特征提取过程中仅采用CNN提取其空间特征是存在一定缺陷的。与此同时,当采用RNN对较长的时间序列数据直接进行特征提取时,由于模型的复杂度较高,训练时收敛速度通常较为缓慢。因此本文结合了CNN与RNN的优点,首先对声纹特征采用残差网络(ResNet)进行高层特征的提取,在获取空间特征的同时降低特征图的尺寸,然后进一步采用门控循环神经网络(GRU)对特征图进行时序特征的提取。实验结果表明,本文提出的基于ResNet-GRU的声纹识别方法的识别能力明显优于基线方法,并且相对于仅提取空间特征或时序特征的声纹识别方法性能上也存在着较大的性能提升。(2)本文提出了一种基于ECA-DenseNet的声纹识别方法。一般情况下,当采用CNN对声纹特征进行空间特征提取后将会得到一个较深的特征图,而特征图中各通道在声纹识别过程中的贡献度是不同的,因此本文采用了ECA-Net通道注意力机制对特征图各通道的权重进行了重新分配。同时考虑到密集卷积神经网络(DenseNet)相对于ResNet在不同层之间的连接更加紧密,并且鼓励特征重用,降低了模型的参数量,因此本文考虑进一步采用DenseNet作为声纹特征的空间特征提取网络。最终的实验结果表明,基于DenseNet的声纹识别方法相对于基于ResNet的声纹方法识别性能更高,且占用的磁盘空间更少;本文提出的基于ECADenseNet的声纹识别方法的识别能力也明显优于基线方法。(3)本文提出了一种基于ECA-DenseNet-GRU的声纹识别方法。实验结果表明,本文提出的基于ECA-DenseNet-GRU的声纹识别方法的识别能力远优于基线方法,并且相对于基于ResNet-GRU的声纹识别方法与基于ECA-DenseNet的声纹识别方法在性能上也存在着较大的提升。随后,本文对基于ECA-DenseNet-GRU的声纹识别方法的训练方法进一步改进,采用加性角度间隔损失函数(Arc Face)作为网络训练的代价函数,使得识别性能得到进一步提升。本文提出的三种声纹识别方法较基线方法在识别性能上均有所提升,为短语音声纹识别技术提供了新的思路以及解决方案,具有一定的学术研究价值。