论文部分内容阅读
目前语音合成技术使用大量的来自单个说话人的语料库训练网络模型,以合成特定人的音频信号。面对个性化的实际应用场景,现有的语音合成技术在数据资源和定制周期上存在局限性。多说话人语音合成技术作为语音合成领域的分支,能够以高效利用数据的方式为各种说话人生成符合人类听觉的语音。一般从语音自然度和音色相似度两方面,主观地评判语音合成质量。近年,谷歌提出的从说话人验证到多说话人语音合成的迁移学习方法在语音自然度方面有着卓越的性能。但是该模型没有将说话人身份特征和文本内容特征充分融合,导致合成的语音在音色相似度方面有所欠缺。在图像风格迁移中,自适应实例归一化方法能够通过传递特征统计信息有效地结合图像内容和风格特征。受此启发,本文采用自适应实例归一化方法对说话人身份特征和文本特征进行融合。并进一步为说话人身份特征引入循环一致性损失,保持说话人身份特征的一致性,循环优化多说话人语音合成模型。在不降低合成语音自然度的情况下,提高合成语音的音色相似度。本文主要围绕提高多说话人语音合成模型的音色相似度开展研究,主要工作包括以下几个方面:
(1)针对文本特征和说话人身份特征不能有效结合的问题,提出基于自适应实例归一化的特征融合方法。多说话人语音合成技术可以看作是从说话人身份验证到语音合成的迁移学习过程。首先,通过说话人身份验证模块得到说话人身份特征的合理表示(说话人嵌入向量)。为了充分利用说话者身份信息,引入了自适应实例归一化方法将说话人身份特征与合成器中的文本特征进行融合,取代SV2TTS模型中直接将说话人身份特征暴力拼接在文本内容特征上的方法。其次,将合成器预测出的梅尔频谱图用于训练基于WaveNet的声码器网络。最后,对SV2TTS模型和本文提出的基于自适应实例归一化的多说话人语音合成模型分别在AISHELL-2中文数据集和LibriSpeech英文数据集上比较合成语音的自然度和音色相似度。实验结果表明,基于自适应实例归一化的多说话人语音合成模型与SV2TTS模型合成的语音自然度仅有约10%的相差,但是在音色相似度上却有约30%的提高。
(2)针对估计说话人身份特征与目标说话人身份特征不一致的问题,为说话人身份特征引入循环一致性损失函数。本文为说话人身份特征引入循环一致性损失函数,保持合成语音中说话人身份特征与真实说话人身份特征的一致性,即在保证解码器估计的频谱较为接近真实语音频谱的基础上,约束合成语音更为接近目标说话人的音色,从而达到进一步提高合成语音的音色相似度的目的。首先,将合成器中解码器预测出的梅尔频谱图,作为预训练好的说话人编码器网络的输入,得到预测的说话人身份特征。与此同时,将真实语音的梅尔频谱图输入说话人编码器得到真实的说话人身份特征。其次,通过计算两者的L2范数,作为合成器中说话人身份特征的损失,以此循环优化合成器模块。实验结果表明,使用自适应实例归一化进行特征融合后,再引入循环一致性损失能够提高约40%的音色相似度。
(1)针对文本特征和说话人身份特征不能有效结合的问题,提出基于自适应实例归一化的特征融合方法。多说话人语音合成技术可以看作是从说话人身份验证到语音合成的迁移学习过程。首先,通过说话人身份验证模块得到说话人身份特征的合理表示(说话人嵌入向量)。为了充分利用说话者身份信息,引入了自适应实例归一化方法将说话人身份特征与合成器中的文本特征进行融合,取代SV2TTS模型中直接将说话人身份特征暴力拼接在文本内容特征上的方法。其次,将合成器预测出的梅尔频谱图用于训练基于WaveNet的声码器网络。最后,对SV2TTS模型和本文提出的基于自适应实例归一化的多说话人语音合成模型分别在AISHELL-2中文数据集和LibriSpeech英文数据集上比较合成语音的自然度和音色相似度。实验结果表明,基于自适应实例归一化的多说话人语音合成模型与SV2TTS模型合成的语音自然度仅有约10%的相差,但是在音色相似度上却有约30%的提高。
(2)针对估计说话人身份特征与目标说话人身份特征不一致的问题,为说话人身份特征引入循环一致性损失函数。本文为说话人身份特征引入循环一致性损失函数,保持合成语音中说话人身份特征与真实说话人身份特征的一致性,即在保证解码器估计的频谱较为接近真实语音频谱的基础上,约束合成语音更为接近目标说话人的音色,从而达到进一步提高合成语音的音色相似度的目的。首先,将合成器中解码器预测出的梅尔频谱图,作为预训练好的说话人编码器网络的输入,得到预测的说话人身份特征。与此同时,将真实语音的梅尔频谱图输入说话人编码器得到真实的说话人身份特征。其次,通过计算两者的L2范数,作为合成器中说话人身份特征的损失,以此循环优化合成器模块。实验结果表明,使用自适应实例归一化进行特征融合后,再引入循环一致性损失能够提高约40%的音色相似度。