基于深度学习的说话人识别算法

来源 :南昌大学 | 被引量 : 0次 | 上传用户:lovewxb1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别又称为声纹识别,是一门根据声纹特征来判断说话者身份的技术,广泛的应用于各个领域,具有很实用的研究价值。随着计算机硬件性能的提升,基于深度学习的声纹识别技术成为了主流方法之一,然而在深度学习任务中,往往是学习单一的说话人分类器模型来预测标签,又或者采用简单的相似度判决方法实现模型的匹配,导致最终训练出的声纹特征判别力不足,本文为了提取判别能力较强的声纹特征,通过对传统的损失函数进行改进,使得改进的损失函数监督训练出的网络模型能够有效的提高说话人识别精度。本文的工作内容如下:1.首先从稠密型网络(DenseNet)的最后一层隐藏层提取出说话人的低维特征,然后采用提出的ICTL,损失函数作为DenseNet最后一层隐藏层的目标函数,ICTL由三元组损失(Triplet Loss)和改进的三元组损失(ICL)组合而成,它们负责计算出最后一层隐藏层中提取的三元组特征之间的相似度损失,然后使用Softmax Loss计算出DenseNet最后一层分类层对应的三元组样本的预测身份与真实身份之间的误差损失。ICTL是Softmax Loss的辅助损失函数,通过ICTL对DenseNet最后一层隐藏层的监督,使得在训练的过程中,最后一层隐藏层输出的声纹特征的维度之间具有高度相关的分布,即同一说话人样本相互靠近,不同说话人样本相互远离,当三元组样本特征经过DenseNet的最后一层分类层的时候,说话人识别效果就会得到很大的改善。2.采用DenseNet作为声纹特征提取器,并提取其最后一层隐藏层的声纹特征。引入了三元组中心损失(TCL)思想,并在TCL的基础上对其进行改进,提出两种增加类内约束的TCL损失函数作为DenseNet最后一层隐藏层的监督函数,以便在训练的过程中进一步增强提取的声纹特征与属于同一说话人样本特征中心之间的相似度的约束,进而提高声纹特征的判别力,改善DenseNet分类层的识别效果。
其他文献
目的:探讨护理干预措施对普通外科手术患者疗效及康复的影响。方法:将普通外科手术患者196例随机分为护理干预组和常规护理组。常规护理组97例患者实施常规护理,护理干预组99在
经管类专业具有很强的实践性,实践教学是高校经济管理类专业教学体系中重要且不可缺少的环节。针对这一现状,构建了柔性的虚实结合的实践教学体系。该实践教学体系对于提高学
深度学习被引进教育领域后,不同学者对其有不同的理解。综合来看,深度学习具有引领性、挑战性、主动性和发展性的特征。为思维而教,指向学生的理解性思维、批判性思维和创造
我国乳制品行业正处于发展阶段,如今,伴随着我国乳业的飞速发展和壮大,整个行业的相关产品结构也产生了翻天覆地的变化,现在的乳业已经是规模化、多样化、一体化的食品制造加