【摘 要】
:
语音是人们交流沟通的主要方式,随着计算机和智能电子设备的使用越来越广泛,人机交互成为了人们的必然需求,为了更加便利地使用智能电子产品,可以使用语音来实现人机交互。语音实现人机交互需要两个过程,一是智能电子设备“听懂”人类发出的语音信息,即语音识别;二是智能电子设备将文本转换为语音“说出来”,即语音合成。一般在人机交互的过程中,人们只需要听到智能电子设备发出的语音即可,但随着基于深度学习的语音合成技
论文部分内容阅读
语音是人们交流沟通的主要方式,随着计算机和智能电子设备的使用越来越广泛,人机交互成为了人们的必然需求,为了更加便利地使用智能电子产品,可以使用语音来实现人机交互。语音实现人机交互需要两个过程,一是智能电子设备“听懂”人类发出的语音信息,即语音识别;二是智能电子设备将文本转换为语音“说出来”,即语音合成。一般在人机交互的过程中,人们只需要听到智能电子设备发出的语音即可,但随着基于深度学习的语音合成技术的快速发展,定制个性化的语音即语音克隆渐渐成为人们的需求。语音克隆是将文本转换为特定人语音的技术。在语音克隆中,克隆语音的自然度和相似性是评价语音好坏的标准。基于说话人验证的语音克隆系统实现了特定人的语音克隆的功能,针对该架构的克隆语音相似性不高,自然度不够,训练速度慢的问题,本文开展以下工作:1.基于说话人验证的语音克隆系统由说话人编码器网络、合成器网络和声码器网络组成。说话人编码器网络采用d-vector说话人嵌入的方法提取说话人信息;合成器网络采用序列到序列的Tacotron2架构实现文本到梅尔谱的转换;声码器网络采用改进的Wave RNN架构实现梅尔谱到语音波形的转换。实验结果表明克隆语音的自然度和相似性均有待提升。2.基于说话人验证的语音克隆系统采用d-vector描述的说话人编码特征,dvector没有考虑语音前后帧的关联,对说话人特性表征能力不足,从而限制了克隆语音的相似度。针对此问题,本文提出了一种基于x-vector说话人特征的语音克隆方法。x-vector基于时延神经网络提取说话人的嵌入特征,考虑了整个句子的语音信息,更能准确的描述说话人特征。实验结果表明在嵌入向量相似度方面,x-vector方法比d-vector方法不同说话人的相似度值更低,相同说话人的相似度值更高;在克隆语音的自然度和相似性方面,使用x-vector方法比d-vector方法最终克隆语音的自然度提升了0.32,相似性提升了0.14。3.基于说话人验证的语音克隆系统实验中声码器部分采用改进的Wave RNN架构,Wave RNN架构是自回归模型,难以并行训练,训练速度较慢。针对此问题,本文提出了采用Hi Fi-GAN架构作为声码器,Hi Fi-GAN是一种基于生成对抗网络的音频生成模型,可以将梅尔谱快速转换为高质量的语音,实验结果表明克隆语音的自然度提升了0.37,与x-vector方法相结合,克隆语音的自然度在此基础上提升了0.06;在克隆速度方面,比Wave RNN声码器快了十倍。
其他文献
MF-TDMA(多频时分多址接入)卫星通信是在TDMA(时分多址)技术体制基础上发展起来的一种新型宽带VSAT(甚小孔径终端系统)网,具有通信容量大、传播距离远等优势,是目前宽带多媒体卫星通信系统所采用的主流体制,近年来广泛应用于军事、民用、医疗健康、应急救援等领域。在MF-TDMA卫星通信系统的基础构建中,时钟同步技术是卫星通信应用的必要条件之一,且时钟同步的精度直接影响通信应用的质量,这也是本
近年来,基于深度卷积神经网络的目标检测算法与嵌入式平台相结合的技术已经在诸多领域得到广泛应用。但在如今的国内教育领域,目标检测与嵌入式平台相结合的应用基本局限于考场的人脸识别系统,在基层的教学工作中并未得到更有深度的应用。本论文对初中物理电路实验教学工作进行调研,开发出以YOLOv3-Tiny目标检测算法为理论基础、以嵌入式RK3399Pro为应用平台的软件系统,该系统可以代替老师或学生完成电路实
无线Mesh网络(Wireless Mesh Network,WMN)是近年来逐渐成熟的一种新型无线网状网络,有着很好的自组织性能,在可扩展性,组网速度等方面表现优秀,被视为下一代无线网络的重要组成部分。随着网络信息技术的发展进步,无线Mesh网络相关应用场景开发不断拓展,其中,将其作为灾后应急网络基础架构的相关研究是目前世界范围内的研究热点。信道分配算法决定了无线Mesh网络的网络表现,以WMN
医学图像配准的主要目的是对相同设备拍摄的不同场景或者不同设备拍摄的相同场景下一系列图像进行适当的空间变换,使得两幅或多幅图像间的对应点在空间位置上对齐。把医学图像配准技术应用于医学影像分析,可以辅助进行疾病诊断和手术治疗。但是由于成像技术的不同,产生很多不同模态的医学图像。若能够有效结合多种模态图像的成像优势,提供更加准确和互补的信息,从而为医生在疾病诊断和手术治疗中提供更全面的依据。解决上述问题
光热转换智能水凝胶可以将光能转化为热能,再通过热能引发水凝胶材料的响应行为。这种具备光热转换功能的智能水凝胶材料在药物缓释、海水淡化、光驱动器件等领域具有良好的应用前景。但是目前的光热复合水凝胶存在光热转换性能差、响应速度慢、力学性能不佳、功能单一等缺点。针对这些问题,本文以开发新型具有优良光热性能的多功能水凝胶为目标,将聚N-异丙基丙烯酰胺(PNIPAM)温敏水凝胶分别与高光热转换效率的二维MX
近年来,随着科学研究和工程技术的发展,各领域对计算能力的需求越来越大,促使了多核计算系统的快速发展,国内外主流计算平台核心数不断攀升。根据科学计算领域的二八法则,程序中20%的代码往往占据80%的执行时间,这些时间占比较大的代码块通常是程序中的循环结构。因此,利用多核并行计算资源来提升程序中核心循环的性能是一个重要的研究方向。Open MP是基于编译指示的共享存储多线程并行编程模型,由于其简单、高
随着我国可持续发展战略的实施与不断深化,建筑垃圾资源化利用的研究也在持续升温。将破碎后的建筑垃圾作为骨料制备再生混凝土,是建筑垃圾资源化利用的重要途径之一。建筑垃圾在破碎过程中会产生大量粒径小于0.16 mm的微细粉末,约占建筑垃圾总质量的15%,即再生微粉,具有一定的潜在活性。相比于再生粗骨料和再生细骨料,再生微粉的回收及应用研究并不充分。与此同时,随着我国经济的快速发展,新型工程建设项目不断涌
历史文化名镇在我国的历史文化村镇体系中有着“乡之头,城之尾”的重要地位,体现着重要的历史价值、文化价值和人文价值。我国历史文化名镇保护工作成绩显著,极大地带动了古镇的经济和社会发展,但是部分地区也出现了一些大拆大建、拆旧建新、过度商业化等问题。我国相关法律法规中明确指出应当定期对规划的实施进行监督检查,但是由于我国规划实施评价工作开展较晚,在学术层面的研究处于起步阶段,尚未形成系统的理论体系。因此
2020年新基建的发展在中国大地上形成燎原之势,为国家稳经济、稳增长助力。中国社会也正伴随着新基建的发展步入智能时代,众多互联网及其相关产业发展迅猛的同时,大量的核心关键技术仍然存在“受制于人”的风险。公众对我国互联网的安全性存在一定疑虑,最具有代表性的质疑莫过于“美国能否按下中国互联网的暂停键?”之类的言论。作为互联网中最关键的基础设施,DNS(Domain Name System,域名系统)的
云计算凭借其强大的计算能力和存储能力得到了用户的认可,服务上云已成为行业应用发展的趋势。然而,云计算在给我们的生活带来了极大便利的同时也引入了新的问题,如云上的虚拟机容易受到攻击者影响、云资源分配不合理等。分析当前的云计算安全与资源分配研究现状,仍存在以下三个方面的不足:1)为了便于运维和管理,当前的云环境大多采用静态同质架构,然而静态同质的云计算环境容易成为攻击者的目标,增大了云平台被攻击的可能