论文部分内容阅读
特定说话人的声音变换就是将一个特定说话人的声音变换成另外一个特定说话人的声音。本文旨在实现和改进一个完整的特定说话人的汉语语音转换系统,在总结以往该项技术的基础上,针对语音协同发音的一些现象,提出选取每个音素稳定帧上的特征来代替整个音素的特征的方法;提出了一个新的基于汉语音素的声音变换系统;另外,提出了一个以非并行语料为训练数据的非并行声音变换系统:同时,还将基于音素的声音变换技术扩展到英文声音变换系统中去;最后,还完成了一个准实时的声音变换演示系统。本文主要工作和贡献有以下几个方面:
1、提出一种新的参数选择方法,即为每个元音音素选取稳定帧,选择稳定帧上的参数代替该元音音素的参数。该方法能够通过选取该音素中间的稳定段参数作为对应音素的参数的手段,避免以往方法中不考虑协同发音对声学特征的影响,而将音素过渡段的参数进行模型训练的问题。
2、本文还分析了口音对汉语元音音素共振峰频率的影响,研究表明:口音对于单元音[O,I,U]的第二共振峰频率F2的影响较大;口音对单元音[A]的三个共振峰频率没有显著影响。
3、主要元音的选择。为了减轻基于音素的声音变换系统合成的声音频谱出现的很多不连续的现象,我们提出为每个韵母选取一个主要元音音素来代替对应的整个韵母部分,这样可以将语音频谱按音节分割成一些较长的频谱段,减少变换后频谱的不连续现象。
4、提出了新的基于汉语音素的声音变换系统。根据观测传统分类得到的参数可以看到,这样训练得到的模型很难很好的表征不同音素的参数特点,因此,为了将每个音素的特征分别进行表征,提出为每个音素训练一个GMM的方法来实现声音变换系统。该系统的MOS分和ABX分分别比基线系统提高了47%和26%。
5、实现一个以非并行语料为训练数据的非并行声音变换系统。由于在实际应用中很多情况下通常不能满足并行数据的条件,针对这种应用需求,本文提出一种采用非并行语料进行训练的声音变换系统,与基于音素的并行系统相比,两个系统性能相当。
6、将基于音素的声音变换技术推广到英文声音变换系统中。目前声音变换技术除了在汉语普通话上进行研究以外,还有很大一部分研究工作是在英语上的。因此,为了能够和国内外的英文声音变换系统相比较,本文将前面所介绍的基于音素的声音变换技术应用到英语中,实现了一个英文的声音变换系统。
7、完成了一个实时的声音变换演示系统。本文实现了一个基于单音素[A]进行汉语语音音色变换的实时演示系统。