基于自适应实例归一化的多说话人语音合成模型

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:jamesfair
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前语音合成技术使用大量的来自单个说话人的语料库训练网络模型,以合成特定人的音频信号。面对个性化的实际应用场景,现有的语音合成技术在数据资源和定制周期上存在局限性。多说话人语音合成技术作为语音合成领域的分支,能够以高效利用数据的方式为各种说话人生成符合人类听觉的语音。一般从语音自然度和音色相似度两方面,主观地评判语音合成质量。近年,谷歌提出的从说话人验证到多说话人语音合成的迁移学习方法在语音自然度方面有着卓越的性能。但是该模型没有将说话人身份特征和文本内容特征充分融合,导致合成的语音在音色相似度方面有所欠缺。在图像风格迁移中,自适应实例归一化方法能够通过传递特征统计信息有效地结合图像内容和风格特征。受此启发,本文采用自适应实例归一化方法对说话人身份特征和文本特征进行融合。并进一步为说话人身份特征引入循环一致性损失,保持说话人身份特征的一致性,循环优化多说话人语音合成模型。在不降低合成语音自然度的情况下,提高合成语音的音色相似度。本文主要围绕提高多说话人语音合成模型的音色相似度开展研究,主要工作包括以下几个方面:
  (1)针对文本特征和说话人身份特征不能有效结合的问题,提出基于自适应实例归一化的特征融合方法。多说话人语音合成技术可以看作是从说话人身份验证到语音合成的迁移学习过程。首先,通过说话人身份验证模块得到说话人身份特征的合理表示(说话人嵌入向量)。为了充分利用说话者身份信息,引入了自适应实例归一化方法将说话人身份特征与合成器中的文本特征进行融合,取代SV2TTS模型中直接将说话人身份特征暴力拼接在文本内容特征上的方法。其次,将合成器预测出的梅尔频谱图用于训练基于WaveNet的声码器网络。最后,对SV2TTS模型和本文提出的基于自适应实例归一化的多说话人语音合成模型分别在AISHELL-2中文数据集和LibriSpeech英文数据集上比较合成语音的自然度和音色相似度。实验结果表明,基于自适应实例归一化的多说话人语音合成模型与SV2TTS模型合成的语音自然度仅有约10%的相差,但是在音色相似度上却有约30%的提高。
  (2)针对估计说话人身份特征与目标说话人身份特征不一致的问题,为说话人身份特征引入循环一致性损失函数。本文为说话人身份特征引入循环一致性损失函数,保持合成语音中说话人身份特征与真实说话人身份特征的一致性,即在保证解码器估计的频谱较为接近真实语音频谱的基础上,约束合成语音更为接近目标说话人的音色,从而达到进一步提高合成语音的音色相似度的目的。首先,将合成器中解码器预测出的梅尔频谱图,作为预训练好的说话人编码器网络的输入,得到预测的说话人身份特征。与此同时,将真实语音的梅尔频谱图输入说话人编码器得到真实的说话人身份特征。其次,通过计算两者的L2范数,作为合成器中说话人身份特征的损失,以此循环优化合成器模块。实验结果表明,使用自适应实例归一化进行特征融合后,再引入循环一致性损失能够提高约40%的音色相似度。
  
其他文献
本文主要研究正倒向随机系统的混合最优控制问题及在经济中的应用.分别针对倒向随机混合控制系统的最优控制问题、由倒向随机微分方程驱动的非零和混合微分博弈问题、正倒向随机系统的混合最优控制问题及其在经济中的应用进行了深入研究.  主要的学术贡献包括:首次给出由倒向随机混合控制系统驱动的最优控制问题存在唯一解的充分必要条件,给出了具有平均场形式的最优控制反馈表达且得到了最优状态满足一类平均场倒向随机微分方
在人-机器人协作过程中,通过灵活方便的方式对常用的串联型旋转关节构型的协作机器人进行实时位姿捕捉具有重要意义。虽然大部分机器人本体都配备有编码器系统,用于测量各关节的旋转角度,但通常要求编码器安装在关节中心处,在一些机械结构受限制的应用中难以实现。对于传感系统不开放的机器人,用户无法通过应用程序接口获取机器人关节角和位置信息,难以实现与其他系统的集成。此时,惯性-磁传感器设备可以提供一种灵活方便的
数字条纹投影三维(Three-dimensional,3D)测量技术因具有非接触式、高分辨率、高精度、高效率、高普适性、低成本、全场测量等优点,广泛应用于汽车工业、航空航天、新能源产业、船舶制造和交通运输等领域,是目前光学三维测量领域科学研究与产品研发的热点。市场上已有的测量产品价格昂贵,且大多采用的是双频外差解相位技术,在图像采集上耗时较长,限制了其在高速动态测量领域上的应用。本文围绕数字条纹投
目前制约道路交通系统发展的问题主要集中在交通事故、交通污染和交通拥堵方面。在汽车中开始大范围使用电子辅助设备,主要实现的辅助功能有电子稳定控制,车道偏离后的预警,以及紧急制动等。但针对降低人为因素导致的交通事故发生率的问题,目前车辆所使用的电子辅助系统并不能完全达到智能辅助驾驶的目的,也无法利用事故预警,以及风险评估等形式,来降低人为交通事故。因此,为了实现应用辅助驾驶系统或无人驾驶技术降低交通事
学位
在过程控制、流体控制、以及网络化控制等系统中,普遍存在着时滞现象和未知动态干扰,其控制问题一直是控制领域研究的热点话题。时滞和未知干扰往往是制约系统性能的主要因素,这些不确定因素通常会严重影响系统的响应速度和控制精度。因此,对于在系统中含有未知扰动、时滞等现象的研究在现阶段有十分重要的意义和价值。  自抗扰控制器(ADRC)作为一种新型控制器,具有较强的稳定性和鲁棒性,通过引入扩张状态观测器,实现
六足机器人作为一种并联机器人,因其运动方式灵活多变,稳定性强,所以其环境适应性较好,已经成为机器人中的主流产品。然而由于六足机器人腿部数量较多,使得六足机器人的控制难度增加。中枢模式发生器(CPG)的出现,为六足机器人的控制方法提供了新的思路。本文对六足机器人识别地形然后采取相应的步态规划进行研究,利用CPG控制六足机器人在地形环境中平稳行走。具体研究如下:  首先,通过研究国内外论文介绍目前六足
多智能体系统广泛存在于实际生产生活中,是控制领域的研究热点,而一致性问题作为智能体协调合作的基础,更是深受关注。受限于能源供应限制,以嵌入式微处理器为核心的多智能体系统在实际应用时约束较多,因此一致性控制协议不仅要满足性能要求,更要提高资源利用率。事件触发控制对于降低资源消耗效果显著,故而被认为是资源受限环境下的优良控制策略。再则,现有的关于事件触发控制下多智能体系统一致性问题研究的文献多是针对智
分数阶微积分是整数阶微积分的统一与延伸,是求函数的任意阶导数或积分。由于分数阶微积分算子的长记忆性和无限维等特点,使得分数阶模型可以简洁准确地描述复杂系统的动态行为。系统辨识作为分数阶系统建模的有效手段引起了很多学者的关注。目前,在分数阶系统辨识中,直接利用分数阶微分定义计算输入输出信号的分数阶微分存在计算量大,容易扩大噪声等缺点。为此,本文利用块脉冲函数的分数阶运算矩阵将函数的分数阶运算转换为代
受雾霾微粒影响,含雾图像清晰度及色彩饱和度降低,图像质量产生退化。图像去雾算法能够有效提高含雾图像能见度、改善图像视觉效果,因此具有十分重要的研究价值。结合含雾图像特征,本文着重研究了基于物理模型的图像去雾算法,主要工作如下:  (1)针对当前全局大气光估计方法存在易受极值区域影响,导致大气光估计产生偏差的问题,提出了一种基于最小方差投影的全局大气光估计方法。通过将图像沿行列方向投影,分析不同行列
学位
从地理领域文本等非结构化数据中抽取实体和关系,为构建地理知识图谱、智能问答等应用提供了重要基础。由于地理领域标注语料资源较少,难以使用深度学习等依赖大规模标注语料的方法,利用知识库中的领域知识对地理语料库进行表示增强,可以有效缓解语料不足的问题。传统神经网络模型在处理一维序列、二维网格数据时表现优异,但不能很好地处理知识库等图结构数据。现有的实体关系抽取模型不能很好地处理语料库中多元实体关系的情况
学位