基于端到端的富有韵律的语音合成系统的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:Air8712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的高速发展以及计算机运算能力的不断提高,语音合成技术取得了一系列的突破。语音合成的应用场景也变的日趋广泛,例如Siri,小爱等手机语音助手、智能音箱等。为了满足人们多样化的需求与更好的用户体验,音色丰富,逼近真人、富有情感的语音技术成为了市场发展需要。当前语音合成多是韵律单调,很难从根据不同的输入文本合成不同的语调。在零次学习的多说话人语音合成时,也存在对未见过的说话人编码身份不准确等问题。本文围绕着这两方面主要进行了以下工作:首先,提出了 MAI(Multiple Acoustic Information)模块和 SA-M(Multiple Self-Attention)模块。前者能够在存在参考音频时从其中获取音高响度信息,后者则通过多层的自注意力模块挖掘输入文本中潜在的句法语义信息,并使用迭代聚合的方式对不同层次间的信息进行聚合。进一步,本文提出了基于Tacotron2的表达性韵律语音合成模型 MAI-SA(Multiple Acoustic Information and Self-Attention)。最后,本文通过主观与客观评测两种方式,对各模块进行了对比实验,相对于应用广泛的Tacotron2与Tacotron2-GST模型取得了更好的效果。其次,提出了 MSA-LDE(Muti-Scale Aggregation-LDE)说话人编码模块。本文借鉴了图像领域中金字塔网络的思想,将Resnet34不同阶段进行信息提取后通过LDE来捕获不同尺度地说话人信息。本文将该模块应用到MAI-SA模型中,在未见过的说话人身份特征的进行语音合成上,相对于常用的利用GE2E作为损失而训练的说话人编码器的语音合成方案取得了更好的效果。最后,本文设计了简单易用的语音合成平台,将表达性语音合成模型MAI-SA与说话人语音合成模型MSA-LDE模型应用其中,并通过实验验证了平台的可用性。
其他文献
近年来,5G通信系统发展迅猛,且带宽需求高的应用数量迅速增长。混合光纤无线(Fiber-Wireless,Fi-Wi)接入技术被视为有潜力的下一代接入网络,其有望缓解日益增加的带宽压力并应对各种无处不在的业务请求带来的挑战。Fi-Wi网络技术为用户提供了建立高质量连接的可能性,同时保证了网络灵活性和经济性。然而,由于Fi-Wi网络的光与无线子网之间存在网络结构和资源类型异构现象,该异构网络的整体管
世界发展进入21世纪,传感器技术不断地向前发展,传感器节点的规模也逐渐扩大,各节点之间能够进行无线通信,构成了无线传感器网络(Wireless Sensor Network,WSN),它们通常部署在某些特定环境下,用来完成不同的功能,例如交通治理,环境监测等。在无线传感器网络中,其位置信息也是至关重要的一环,但是由于环境的复杂性,传感器节点的GPS信号往往会缺失,且使用GPS设备定位成本高,没有运
图结构数据在实际生活中有着广泛的应用,人们可以挖掘丰富的关联关系并将其建模成图模型,图机器学习算法通过充分利用这些结构信息,从而挖掘更多有价值的信息来提供更加精确的结果。虽然图机器学习算法利用节点间的依赖关系来辅助决策,但是图模型的复杂结构同样提高了算法可解释性技术的难度,现有的图模型可解释性算法未能将决策结果公平地归因到参与决策的因素上,并且多数方法都致力于简化计算,忽略了从人类感知角度的反事实
随着大量新兴5G应用的出现和移动互联网的快速发展,网络流量爆炸式增长,对延迟的要求日益严苛,靠近终端用户的城域光网络正在迅速升级并开始承担分配不同的网络和IT资源的功能。近年兴起的多接入边缘计算(Multi-access Edge Computing,MEC)技术,可以在网络边缘提供云计算能力,使用户设备能够以较低的延迟访问计算资源,并解决与骨干网拥塞相关的问题。因此,由城域光网络互连的多接入边缘
随着光通信系统规模的不断扩大、传输速率的不断提高以及通信容量的不断增加,具有高量子效率和高响应带宽特性的光探测器(Photodetector,PD)成为人们研究的焦点。研究者们已经提出了许多方案来提升光探测器的性能。例如,可以通过减小吸收区的面积以及延长耗尽层的长度来减少电容或减少吸收区的厚度来缩短载流子的输运时间等方式来提升光探测器的带宽。研究表明,入射光场的分布会对光探测器的内部电场与载流子分
5G移动通信技术致力于应对不断涌现的新兴业务场景,满足垂直行业差异化的服务质量需求。为此,网络切片技术作为一种有前景的解决方案被提出。然而,现有无线接入网(Radio Access Network,RAN)集中式的架构使得光纤链路或处理池中服务器发生故障时将造成多个RAN切片无法正常提供服务,这对无人驾驶、工业互联及自动化等高可靠应用场景造成的损失是无法弥补的。因此,如何构建高生存性的RAN切片,
光传送网(Optical Transport Network,OTN)作为以密集波分复用技术为基础的网络系统,通过具有调度能力的交叉连接矩阵来增强其组网能力,是新一代传送网的主要技术。其既可以对大颗粒的业务进行直接调度,又可以提供大容量的带宽。正因为此,一旦发生网络故障会导致大量数据丢失以及核心信息传输受阻,从而造成重大经济损失和不良社会影响。因此对OTN进行光纤线路监测的需求变得愈发迫切,而且将
随着信息技术的飞速发展,国防领域正面对着复杂多变的战场环境,广频谱、宽频带、非线性的电子战场为传统宽带频谱感知装备带来了新的挑战。模数转换器因受限于采样定理,所以需要更高的采样率,而产生的海量数据也将增加后端处理能力的压力。基于压缩感知理论可实现低于奈奎斯特速率,对稀疏信号进行采样和重构,因此可缓解上述压力。微波光子学因为具有瞬时带宽大、稳定性强、抗电磁干扰等特点,经过优势互补,产生了光子辅助压缩
随着最近几年国内电商平台的发展,艺术品电商平台得到了一个良好的发展环境。但目前国内外艺术品电商平台功能单一、扩展性差,给用户带来了不好的购物体验。为了解决以上缺点,本文设计了一个社交化艺术品电商平台,该艺术品电商平台对传统电商平台在功能上进行了扩展和创新,加入了社交化的元素,包括线上展览、拍卖、评论、点赞等功能。由于PHP语言的跨平台、方便快捷等优点,因此本文使用PHP语言作为该艺术品电商平台的主
随着计算机视觉领域的发展,越来越多的任务可以交由机器解决。机器智能在人们的生产生活中扮演了越来越重要的角色。近年来,随着图形计算能力的快速增长,计算机视觉领域高速发展,在一系列基础视觉任务上取得了巨大成功。与此同时,对结合多种基础视觉任务处理实际问题提出了新的需求。本文旨在结合多种基础视觉任务,关注对人类行为的理解,以人体姿态估计任务为出发点,研究人体动作识别和评估算法,以满足当今社会对计算机视觉