基于深度学习的说话人识别以及反欺骗攻击技术

来源 :厦门大学 | 被引量 : 0次 | 上传用户:lipeng632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术通过分析说话人的语音样本即可认证话者身份,相较于其他生物验证方式,其具有采集要求不高、非接触性、识别效率高、用户体验度高等优势,有着重要的研究意义和实用价值。然而,先进的语音合成算法和高保真数码设备的录音回放等对说话人识别系统的安全性能造成极大的威胁。因此,本论文将研究说话人识别以及反欺骗攻击的关键技术,优化提升说话人识别系统的开集识别性能,并提出多特征多任务学习机制,提高真实与欺骗语音二元判决的识别性能。本论文的主要工作包括:(1)分别采用不同的神经网络架构,如TDNN、LSTM和Attention等,实现基于x-vector的说话人识别系统。为了提升说话人识别系统对开集测试的鲁棒性,本论文提出了 Filler通用结点模型,优化识别系统的网络框架,进一步提升识别性能。(2)为提升说话人识别系统反欺骗攻击的安全性能,本论文提出了多特征整合网络结构,在单个神经网络内添加Stitching Layer,整合不同声学特征的非线性表征后再进行深度特征提取,挖掘不同声学特征在时间-频率分辨率的不同刻画能力。(3)针对不同类型以及未知的欺骗攻击方式,本论文提出了使用多任务学习对不同欺骗攻击条件进行分类训练,以提升二元决策的泛化性;为优化多任务间共享信息的有效传播,本论文提出了 Butterfly Unit模块,协调不同任务对网络参数学习的影响程度。本论文在说话人识别NIST SRE10、SRE18评测集验证了 Filler通用结点模型的可行性,在ASVspoof2017和ASVspoof2019评测集上验证了多特征多任务学习机制的有效性。在实际评测任务中,SRE18的CMN2任务指标排名全球47队中的第13位,ASVspoof2019的PA任务指标排名全球52队中的第7位。
其他文献
工程立交桥梁共含2条主线跨线桥,其中461省道上跨328国道主线桥全长1.05 km,328国道上跨461省道辅道的桥梁全长600 m。通过介绍该立交桥梁的总体设计、技术标准、设计要点以
强化理论是行为心理学中的操作性行为理论,强化理论与大学生思想政治教育是相互关联、相互影响的。强化理论应用于大学生思想政治教育有利于形成大学生健康的人格,塑造大学生的良好行为,培养大学生的思想道德素质。本文在强化理论的基础上分析了大学生思想政治教育和强化理论的关系,以及强化理论应用于大学生思想政治教育的重要意义,并阐述了强化理论应用于大学生思想政治教育的应用现状,针对应用于大学生思想政治教育所面临的
已有研究及实践均证明语音变形(Voice Transformation,VT)、语音转换(Voice Conversion,VC)、语音合成(Speech Synthesis,SS)及重播语音等欺骗性语音能有效地欺骗自动说话人识别系统,给社会安全带来严重的危害。目前已有的研究主要集中于对VC、SS及重播语音的检测,而对VT相关的安全问题研究相对不足。然而,相较实现成本较高且算法尚未完全成熟的VC及
“隐喻”手法是我国古代文学领域中的一种修辞方法,是诗歌创作中的常用手法之一。随着社会的不断进步与发展,“隐喻”手法不仅在修辞学中被应用,而且逐步向多个领域拓展延伸。因此,设计师也开始将“隐喻”手法大量的运用到公益海报设计中。本文通过对“隐喻”手法在公益海报设计中的艺术表现探究,论述了“隐喻”手法的审美特征、设计原则与艺术表现等内容。具体研究过程包含以下几个部分:第一部分:对“隐喻”手法的研究背景、
目前,人工智能的发展为教育领域赋能,从为教师服务的角度看,具有减轻负担、帮助教师更加关注学生个性发展、提高效率等优势。比如,人工智能的备课技术,可以满足教师个性化备课的需要,根据教师的不同需求为教师推送不同的教学资源,提供智能化备课的服务。研究发现,现有的备课平台主要存在两个问题。1)未能面向全体教师。现有的备课平台,大多面向K12阶段的教师,忽略了高校教师的备课需要。2)未能实现教学资源的个性化
本文结合理论分析与案例分析的研究方法,在跨境并购价值评估的方法和特点难理论分析的基础上,以"中海油并购尼克森"为案例,对其标的进行价值评估,从宏观市场情况、微观企业情