论文部分内容阅读
一个可训练的语音合成系统(TTS,TextToSpeech)可以合成高质量的语音,来满足一些一般的应用需求。然而,在一些变化比较多的应用中,我们希望能够定制更多个性化的声音。所以如何利用很有限的训练数据来得到一个新的声音,并且保持原始语音的自然度和可理解程度,成为了一个新的挑战。说话人语音转换可以用一种自然的,合乎逻辑的方法来有效的改变一个说话人的声音。基于隐马尔可夫模型(HMM,HiddenMarkovModel)语音合成系统中的说话人转换通常又叫做说话人自适应。
说话人声道长度规整(VTLN,VocalTractLengthNormalization)已经被成功的运用到语音识别中,用来对谱的特征做规整。VTLN通常用频率弯折(例如双线性转换)来实现。在本篇论文中,我们用源说话人和目标说话人的五个长元音的前四个共振峰频率值映射来完成频率弯折。我们构造的这个频率弯折函数将与最大似然线性回归(MLLR,MaximumLikelihoodLinearRegression)算法相结合,来提升TTS中说话人自适应的性能。这个公式用来对原始说话人频谱的频率值向目标说话人频谱的频率值做映射,实现对源频谱的弯折。我们从弯折后的谱中提取参数,用来训练源说话人的模型,这个模型会与目标说话人更加接近。最后我们会用MLLR算法来对模型做自适应,以得到目标说话人的模型,从而可以合成目标说话人的声音。
试验中,我们源说话人的训练数据为4000句,目标说话人的自适应数据为100句,每个说话人有10句话用来做测试。客观评估标准为模型合成的谱和目标谱之间的距离,主观评测为AB选择和ABX相似度测试,用来对效果做进一步的确认。实验结果证明频率弯折可以提高说话人自适应系统的性能,尤其是在自适应数据较少的情况下。