论文部分内容阅读
说话人识别又称为声纹识别,是一门根据声纹特征来判断说话者身份的技术,广泛的应用于各个领域,具有很实用的研究价值。随着计算机硬件性能的提升,基于深度学习的声纹识别技术成为了主流方法之一,然而在深度学习任务中,往往是学习单一的说话人分类器模型来预测标签,又或者采用简单的相似度判决方法实现模型的匹配,导致最终训练出的声纹特征判别力不足,本文为了提取判别能力较强的声纹特征,通过对传统的损失函数进行改进,使得改进的损失函数监督训练出的网络模型能够有效的提高说话人识别精度。本文的工作内容如下:1.首先从稠密型网络(DenseNet)的最后一层隐藏层提取出说话人的低维特征,然后采用提出的ICTL,损失函数作为DenseNet最后一层隐藏层的目标函数,ICTL由三元组损失(Triplet Loss)和改进的三元组损失(ICL)组合而成,它们负责计算出最后一层隐藏层中提取的三元组特征之间的相似度损失,然后使用Softmax Loss计算出DenseNet最后一层分类层对应的三元组样本的预测身份与真实身份之间的误差损失。ICTL是Softmax Loss的辅助损失函数,通过ICTL对DenseNet最后一层隐藏层的监督,使得在训练的过程中,最后一层隐藏层输出的声纹特征的维度之间具有高度相关的分布,即同一说话人样本相互靠近,不同说话人样本相互远离,当三元组样本特征经过DenseNet的最后一层分类层的时候,说话人识别效果就会得到很大的改善。2.采用DenseNet作为声纹特征提取器,并提取其最后一层隐藏层的声纹特征。引入了三元组中心损失(TCL)思想,并在TCL的基础上对其进行改进,提出两种增加类内约束的TCL损失函数作为DenseNet最后一层隐藏层的监督函数,以便在训练的过程中进一步增强提取的声纹特征与属于同一说话人样本特征中心之间的相似度的约束,进而提高声纹特征的判别力,改善DenseNet分类层的识别效果。