【摘 要】
:
语音作为最便捷的交流方式之一,包含丰富的语义信息、说话人个性信息和情感信息等。语音转换任务是改变语音中的说话人个性信息,目标是将源说话人语音中的个性信息转换为目标说话人个性信息,同时保持源说话人语音中的语义信息不变。跨语种语音转换作为语音转换领域的一个重要分支,在语音交互系统、国际文化交流等方面具有十分重要的应用价值。近几年,得益于深度神经网络的建模能力,跨语种语音转换领域发展迅速,各种基于深度神
论文部分内容阅读
语音作为最便捷的交流方式之一,包含丰富的语义信息、说话人个性信息和情感信息等。语音转换任务是改变语音中的说话人个性信息,目标是将源说话人语音中的个性信息转换为目标说话人个性信息,同时保持源说话人语音中的语义信息不变。跨语种语音转换作为语音转换领域的一个重要分支,在语音交互系统、国际文化交流等方面具有十分重要的应用价值。近几年,得益于深度神经网络的建模能力,跨语种语音转换领域发展迅速,各种基于深度神经网络的跨语种语音转换模型取得不错的转换效果,但大多数模型只能实现闭集情形下的转换任务。在实际应用中,跨语种语音转换模型应适用于任意说话人,因此需要实现开集情形下的转换任务,此外,算法的运行效率会影响同等性能下所需的计算资源和存储设备。鉴于此,本文针对跨语种语音转换的开集问题和算法运行效率两方面进行探讨并提出一系列改进工作。首先,为了实现开集情形下的跨语种语音转换,本文提出基于激活指导的跨语种语音转换模型。该模型采用U型连接的编码器-解码器结构,在编码器中,实例归一化和激活指导是关键环节,可以使得编码器具备提取语音中的语义信息表征和说话人个性信息表征的能力,并且不受语言种类和说话人数量的限制。其中实例归一化操作可动态提取说话人个性信息表征,并获取语义信息的初步表征,激活指导作为“软”瓶颈可提取不同语种语音的语义信息表征。在解码器中,利用自适应实例归一化来融合编码器提取的语义信息表征和说话人个性信息表征,从而得到转换语音,实现跨语种语音转换。实验仿真结果表明,转换语音的平均MOS值为3.44,平均ABX值为83.86%,说明基于激活指导的跨语种语音转换模型能够完成开集情形下的跨语种语音转换,并且转换效果良好。其次,为了提升算法的运行效率,本文在基于激活指导的跨语种语音转换模型基础上,提出基于激活指导和内卷积的跨语种语音转换模型,该模型利用内卷积轻量且高效的特点,使用内卷积部分代替标准卷积,减少原模型的参数量和计算量,以提升算法的运行效率。实验仿真结果表明,与原模型相比,该模型的参数量和计算量分别减少了37.66%和38.68%,模型的训练速度提升了24.63%,平均MOS值为3.38,平均ABX值为83.60%,验证了该优化方案能够在保证模型转换效果的前提下,大幅度地降低模型的参数量和计算量,达到提升算法运行效率的目的。综上所述,本文提出的基于激活指导和内卷积的跨语种语音转换模型,能够实现开集情形下的跨语种语音转换,取得较好的转换效果,此外,该模型还具有较高的算法运行效率,为跨语种语音转换技术走向实际应用进行了重要的理论探讨。
其他文献
近年来,深度学习在图像去噪方面取得了显著的进展,得到了国内外研究人员的广泛关注。然而,大部分现有基于深度学习的图像去噪方法依赖于数据驱动,模型参数缺乏可解释性。相比之下,基于模型的传统去噪方法能准确地定义模型,具有较强的可解释性。研究模型和数据联合驱动的深度神经网络能有效集成两类方法的优点,是解决深度神经网络可解释性问题的有效途径。因此,本文以图像去噪为应用背景,利用深度展开思想搭建可解释性深度神
指静脉识别因其显著的优势近年来逐渐成为研究热点。然而,目前指静脉识别系统大多都直接存储指静脉原始模板,一旦攻击者通过一定不法操作攻击了系统的数据库,由于生物特征的特殊性,模板的丢失会对用户造成严重的隐私侵犯。此外,丢失的模板极有可能会被攻击者作为系统仿冒攻击的工具,造成严重的系统安全风险。针对这些安全性的问题,本文对指静脉模板保护和仿冒检测算法进行了研究,并做了如下工作。(1)目前的指静脉模板保护
随着移动通信技术日益发展和进步,移动互联网数据流量呈现井喷式地增长,各类新型应用层出不穷,网络业务也变得愈加复杂。而对网络业务类型进行识别可以有效地预防网络威胁、保障网络安全、实现访问控制、进行内容审计。但是由于网络业务类型日益繁多且数据流量采用加密的方式进行传输,导致单纯地依靠传统的网络业务识别方法已经不能有效且准确地识别出复杂的业务类型,因此需要研究新的业务识别方法。近年来,随着机器学习不断成
光动力治疗具有低侵袭性和高时空选择性等优点,受到研究者们的广泛关注。但是传统的光动力治疗方案存在光敏剂肿瘤富集量和细胞摄取率低、活性氧供应不足等难题,限制了它的进一步应用。本文设计一种柔性中空人血清白蛋白纳米胶囊,并以此为基础提出两种光动力治疗方案。一种是利用柔性结构、人血清白蛋白和过氧化氢酶,解决传统光动力治疗方式中存在的光敏剂细胞摄取率和肿瘤富集量低以及活性氧产量低等问题。另一种则是利用光动力
多输入多输出(Multiple-Input Multiple-Output,MIMO)系统通过在基站端配置大量收发天线,为消除干扰和调度更多用户提供丰富的空间自由度,通过结合预编码从而能够提升系统的频谱效率、增强链路的可靠性。符号级预编码(Symbol Level Precoding,SLP)能够获得优于预编码的性能,得到广泛的关注。利用大规模MIMO可以进一步增加空间自由度,但是大规模天线的引入
随着物联网技术的快速发展和广泛应用,物联网设备呈爆炸式增长。物联网通过万物互联的方式扩充了互联网的概念,实现了万物互通。边缘计算因其有效降低计算系统延迟,减少数据传输,缓解云计算中心压力等优势,已广泛应用于物联网领域。然而,由于边缘环境的开放性及节点间采用无线通信的方式,数据在传输过程中会受到篡改攻击和中间人攻击等,数据在传输过程中的安全问题将会制约边缘计算的发展。现如今,利用区块链技术实现边缘数
对于电极材料来说,多孔结构可以改善材料的性能。比如,其可以增加材料的比表面积,有利于相应的传质过程,促进电解质离子的传输和降低接触电阻,从而提高器件的存储性能。金属有机框架(MOFs)材料由于其自身的多孔结构的特点,在超级电容器领域得到了广泛的研究与应用。但是传统MOFs材料内部都是微孔结构,不利于离子的快速传输,这极大的限制了MOFs材料在电化学领域的应用。目前通过模板作用以及延长配体等方法可有
随着无线通信技术的发展,高速度、高容量、高效率和高安全的通信需求也在不断增长。由于无线信号固有的广播特性,在通信过程中总是面临着各种各样的安全问题。近年来,智能反射面(Reconfigurable Intelligent Surface,RIS)被广泛用于增强无线通信系统中的物理层安全。此外,符号级预编码(Symbol-level Precoding,SLP)因其在利用多用户干扰方面的巨大优势而备
近年来随着深度学习的发展,人工智能的应用场景已经逐渐贴近我们的生活,城市街道场景、监控场景理解均要求对视频图像具有精确的语义分割,该问题已成为当前研究热点之一。本文通过研究基于深度学习的语义分割方法,提出了一种基于Deep Labv3+改进的语义分割模型,来改善城市街景语义分割精度,并将算法在城市级监控质量评价系统平台进行了尝试。主要的工作内容及创新点如下:(1)解决Cityscapes数据集的数
当今计算机视觉技术发展迅速,各类用于研究机器视觉的软件下的算法技术层出不穷,随着计算机视觉技术的迅猛发展,人体行为分析技术研究作为机器视觉领域重要的研究方向已经在许多的场景中得到应用,得到了人们的广泛应用。其中,人体跌倒行为分析对居家场景下老人跌倒后的及时救助具有重要意义。本文借助群体智能和元胞自动机思想开展了人体行为分析的研究工作,主要工作如下:(1)研究了目前有关人体目标检测的算法理论,介绍了