面向声纹识别的神经网络损失函数研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:ldbeight
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹识别是一种生物身份识别技术,通过从说话人数据集中提取出包含说话人信息的特征,对其进行计算分析后,来对说话人的身份进行鉴别。在深度学习和神经网络的背景下,声纹识别不断实现了性能上的新突破。在训练深度神经网络做声纹识别的过程中,损失函数对于神经网络的收敛起着至关重要的作用。三元组损失函数(Triplet Loss)无法将多说话人的声纹特征成批地组成矩阵进行训练;广义端到端损失函数(Generalized End-to-end Loss)需要大规模语音训练才能收敛;而基于向量角度SoftMax的损失函数(Angular SoftMax Loss)对相同说话人的类内特征的聚集效果不够好。声纹识别方法中,目前占主导地位基线系统的是标准i-vector系统,它能有效地表达说话人的音频特征进行说话人识别。基于以上研究基础,本文针对Triplet Loss、GE2E和Angular SoftMax Loss在多说话人的分类过程中的缺点,对现有的函数损失值计算方法进行了研究并提出了改进方案,提出了将损失函数进行加权联合使用的改进方法。通过加权调整策略,在相同类的embeddings距离关系的基础上,引入了新的权重值并重新调整。对新模型的系统性能进行测试,说明了改进算法的可行性。在大于1000小时的大规模数据集上成功进行了实验,实验结果表明,相比原始神经网络的损失函数,改进后的损失函数使得声纹识别系统在大规模数据集中取得了相对64%提升,最优的等错误率达到了 0.01。
其他文献
<正> 1.本办法所称饲料生产企业登记审查工作,是指饲料行政管理部门依照有关法律、行政法规的规定,对拟开办饲料生产企业进行条件审查登记和已开办企业是否符合《条例》规定
文章从转型期对高校的适应性要求出发,针对当前高校毕业设计存在的问题,提出了转型期高校毕业设计改革的思路与策略。
大理浩月路段景观大道是一条连接苍山和洱海的主要景观轴线,根据道路的地理位置,设计的主题思想定为"山—情—水"。根据该主题思想,浩月路景观大道的绿化设计在传承大理优秀历
摘要:从链接的角度建立了一套评价图书馆网站信息资源利用情况的指标体系,根据指标对数据进行收集,采用主成分分析法从整体上评价图书馆信息资源的利用情况。  关键词:网络信息计量;链接分析;网站资源  中图分类号:G203 文献标识码:A文章编号:1007-9599 (2011) 09-0000-01  Evaluation Model Construction of Library Network I
水泵的修理、维护、调节及调试等技术的工作,都是钳工来完成的。因此,掌握精湛的修理技术,不断地提高钳工本身的专业技术水平、专业知识水平,避开水泵修理工作中的禁忌,是研究、讨
<正> 超细微粒处于原子,分子与宏观固体之间的过渡区域,通常人们泛指尺寸介于10~10~3A 人之间的固体微颗粒,广义的研究对象亦包括颗粒膜,纳米材料以及原子(分子)簇。显然原子
单环刺螠纤溶酶(Urechis unicinctus fibrinolytic enzyme,UFE)是由UFEⅠ、Ⅱ、Ⅲ、Ⅳ一系列同工酶组成的纤维蛋白酶,具有良好的抗凝、溶栓活性和生物安全性。然而,由于不同文献中UFE样本的采收时间、提取部位、提取方法的不同,且尚无同工酶间的活性差异研究,导致科研数据差异大,实验结果无法被重复。本课题选取我国海域具有代表性的单环刺螠生物体,旨在研究其体内纤溶酶的
近年来,随着中国经济高速发展,旅游业逐渐繁荣起来,这使得民用客机的需求量快速增加,全球领先的飞机制造商不断被吸引陆续登陆我国,制造的飞机航空制造企业对我国的战略意义
2003年7月下旬,刘宋镇一养羊户饲养的57只绵羊有近一半发病。经过采取治疗措施,现已基本康复。现将治疗情况介绍如下:临床症状发病羊的主要症状是在皮肤和黏膜上出现痘疹。病
期刊
<正> 一、病毒灵取病毒灵(为白色片剂,每片0.1克,各药店均有出售)若干片,喂给感染鸡痘的病鸡,用量为每只鸡半片,每天2次,连用2天,2天后,病鸡身上的鸡痘全部脱落消失。此方经