【摘 要】
:
随着电子设备性能的提升和深度学习算法的快速发展,基于深度学习的说话人识别系统取得显著的进步,其在识别性能以及鲁棒性上已经全面超越了以往基于统计模型的方法,成为说话人识别领域研究的重点。然而,在许多复杂的现实场景下,现有的说话人识别模型还难以达到实际落地使用的标准。为了进一步提升说话人识别模型的识别准确率和鲁棒性,本文对基于深度学习的说话人识别模型中的关键技术进行研究,针对现有说话人识别模型中存在的
论文部分内容阅读
随着电子设备性能的提升和深度学习算法的快速发展,基于深度学习的说话人识别系统取得显著的进步,其在识别性能以及鲁棒性上已经全面超越了以往基于统计模型的方法,成为说话人识别领域研究的重点。然而,在许多复杂的现实场景下,现有的说话人识别模型还难以达到实际落地使用的标准。为了进一步提升说话人识别模型的识别准确率和鲁棒性,本文对基于深度学习的说话人识别模型中的关键技术进行研究,针对现有说话人识别模型中存在的不足,提出了更有效的帧级特征提取网络和使模型训练更充分的损失函数及训练策略。一方面,为了克服现有基于深度学习的说话人识别模型难以充分利用输入频谱特征中不同频率特征的全局重要性权重分布信息的局限性,本文提出了频率重加权层(Frequency Reweight Layer,FRL)结构。所提出的FRL可以自动从训练数据中学习到输入频谱特征中每一维频率特征的重要性权重,并利用学习到的重要性权重对输入频谱特征进行频域增强。同时,为了进一步利用FRL对网络的中间层特征进行增强,本文提出了基于多层FRL结构的频率重加权网络(Frequency Reweight Network,FRN),并通过实验检索了最优的FRL层数配置。实验结果表明,本文提出的FRL能够在新增参数量可忽略不计的情况下提高模型的识别性能。此外,本文通过对FRL所学习到的权重系数进行了可视化分析以及验证实验,得出了对于说话人识别模型而言,输入频谱特征中的低频特征比高频特征更重要的结论。另一方面,为了解决现有基于附加间隔的Softmax损失函数(Margin-base Softmax loss)缺乏困难样本挖掘能力的问题以及其优化目标与说话人识别任务实际评测指标不一致的问题,本文提出了结合基于误分类样本挖掘的分类损失(Mis-Classified Vector Guided Softmax loss,MVSoftmax)和基于小样本学习框架的余弦角度原型损失(Angular Prototypical loss)的融合损失函数。此外,针对MVSoftmax损失函数在说话人识别模型训练初期存在难以收敛的问题,本文提出了两阶段训练策略。实验结果表明,本文提出的损失函数和训练策略能够进一步提升基线模型的识别性能及鲁棒性。最后,本文将所提出的方法集成到基线模型中,并在Vox Celeb1测试集上与已发表的先进模型进行横向对比。实验结果显示,在只使用Vox Celeb1原始开发集训练模型的情况下,本文提出的模型性能指标EER为2.39%,Min DCF为0.25,与基线模型相比EER降低了9.81%,Min DCF降低了16.94%,超越了现有最先进的模型的性能。在只使用Vox Celeb2原始开发集训练模型的情况下,本文提出的模型性能指标EER为1.35%,Min DCF为0.138,与基线模型相比EER降低了12.33%,Min DCF降低了2.13%,取得了与目前最先进的模型性能相当的结果。此外,与现有最先进的模型相比,本文提出的模型参数量更少,具有更高的应用潜力。
其他文献
公平竞争审查制度是国家为深化市场经济体制改革作出的重大决策和部署。实施公平竞争审查制度,有利于加快重塑市场和政府的关系,优化营商环境,逐步解决统一市场、公平竞争的体制性问题。同时,招商引资政策有利于平衡和加速地方经济的发展,是地方政府发展经济的重要手段。长期以来,由于地方政府追求经济的单方面发展,招商引资政策与公平竞争审查制度之间存在执行上的矛盾,地方政府对公平竞争审查制度的重视程度不高,出台了较
第五代移动通信技术(5G)的普及,对于通信系统的信息吞吐量和时延水平提出了新的挑战。传统移动通信天线难以满足5G提出的三大应用场景,而毫米波相控阵天线作为5G的关键技术之一,有着频带宽、波束可调节等多种优点,成为了业界的研究重点。但目前毫米波相控阵天线还存在阵列效率低、扫描增益衰减剧烈等弊端。为此,本论文在毫米波相控阵的低损耗馈电网络、阵列耦合抑制方法和封装集成等方面开展了系统的研究工作。主要内容
研究法官心证形成过程旨在推动法官心证全过程的科学化、合理化。在实践中,因法官心证问题导致事实认定错误从而酿成冤假错案的现象时有发生。在理论上,我国学术界多从制度构建和限制方面研究自由心证原则,对于法官心证形成过程的研究较少。从心理学上而言,法官心证的过程就是认知心理学中的问题解决过程。因此,以认知心理学分析法官心证的过程具有积极意义。从认知心理学上看,法官心证的过程可以分为接收、分析、评价、公开四
技术的发展提高了社会生产力水平,节约了劳动时间而为全民休闲提供了空间,休闲的重要性逐渐凸显。从表面上看,社会生活趋向多样化,人们分配和消耗时间的方式愈加多元与复杂。但实际上,人们对加速社会中的时间产生失重感,在观念与实践的双重层面上均丧失了对“休闲”的控制权,被迫过上了一种忙碌与虚无并存的矛盾生活。当代普遍存在的精神危机引发了诸多社会问题,本应用于发展个人的休闲遭到了异化,在这种社会现实中,人们产
城市居民委员会(以下简称居委会)作为我国城市基层社区的群众性自治组织,对我国基层群众自治制度的实施具有重要意义。《中华人民共和国城市居民委员会组织法》(以下简称《居民委员会组织法》)作为其成立和运行的重要法律依据,是国家和人民意志与利益的集中体现,蕴含了丰富的价值要素,对其价值构造进行深入研究,有助于更深刻地把握立法者的价值取向和对公众进行正确的价值引导。《居民委员会组织法》的形成,是法的价值及法
新时代下,我国经济社会关系日益复杂化,矛盾纠纷凸显,群众维权意识增强,人民法院受理的案件逐渐增多,于是出现了“诉讼井喷”现象。同时,法官员额制改革,作为推进法官职业化建设的核心战略,冲击了原有的利益安排。这一全新的社会样态既要求优化法治的整体运行流程,又要求完善法律职业主体的生成机制以及司法人力资源的配置方式。在这样的背景下,在我国出现了法官“下海”做律师易且数量多、律师“上岸”做法官难且数量少的
《哥达纲领批判》作为马克思分配正义思想成熟化的标志,整体性地探究其中蕴含的分配正义思想,对解决我国目前贫富差距过大的分配正义困境具有重大的实践意义。本文运用文献研究法、比较分析法和理论联系实际法,坚持在批判中建构的原则,对《哥达纲领批判》中的分配正义思想进行整体性探究。首先,为厘清《哥达纲领批判》中分配正义思想产生的现实依据和理论基础,阐明了在特定历史条件下其产生的现实背景,依据唯物史观创立发展的
同一债务存在多个共同担保人的情况下,其中某一个或多个担保人实际上承担了担保责任,则该部分担保人是否可向其他共同担保人请求行使内部追偿权?关于该问题,我国的法律和司法解释的规定经历了从明确肯定到态度模糊,再到有条件的肯定三个阶段。其中,法律和司法解释态度模糊的阶段持续长达十数年,并在司法实务界和学术界引发了热议。如今,《民法典》的司法解释对共同担保人的内部追偿权问题开创性地进行了有条件的肯定,是现行
民事诉讼逾期举证规制机制构筑于诚实信用原则、诉讼促进义务以及当事人自我责任的理论基石之上,该机制蕴含程序公正、程序安定以及诉讼效率的价值追求。从规制机制的演变历程来看,我国民事诉讼逾期举证规制机制经历了“证据随时提出主义”、民事证据严格失权、民事证据酌定失权三个阶段。我国民事诉讼逾期举证规制机制的运行情况,可从逾期举证相关规制条文的适用情况以及逾期举证案例的具体情形两个维度进行实证考察。考察法条的
从2002年十六大首次提出“扩大中等收入者比重”至党的十九届五中全会公报提出到2035年“人均国内生产总值达到中等发达国家水平,中等收入群体显著扩大”,培育中等收入群体便成为我国政府明确的执政目标。为了使我国能够成功跨越“中等收入陷阱”、形成橄榄型社会结构、实现共同富裕等目标,从中等收入群体扩大路径入手,归纳和总结改革开放后中国共产党在扩大中等收入群体实践中的经验与规律,探索新时代扩大中等收入群体