论文部分内容阅读
源—目标说话人声音转换是将源说话人的语音模式转换成某个特定的目标说话人的语音模式,而保持源说话人原有的语义内容不变,使转换后的语音具有目标说话人的声音特点。声音转换是当前语音信号与信息处理研究领域的一个热点,除了理论方法研究外,其应用前景也非常广泛,包括文语合成系统的定制、电影广播剧角色的自动配音、多说话人语音语料的采集和传输等。
本文研究的源—目标说话人声音转换是基于共振峰分析—合成模型的,主要研究声道共振峰的参数表示和提取方法,与文本无关的声道共振峰参数映射规则的获取方法,以及共振峰合成器。
首先研究了共振峰分析—合成模型,深入讨论并验证了共振峰参数中所表征的说话人个性特征,针对语声中浊音和清音不同的共振峰结构特点,对浊音和清音采取了不同的参数表示方法,并给出了一种基于线性预测的共振峰提取算法。
为了获取文本无关下的源—目标参数间的映射规则,采用了基于分类的映射规则获取思想,对分类线性转换方法(CLT)进行分析研究,并在此基础上,本文给出了一种基于径向基函数神经网络(RBFNN)的分类线性加权转换方法,以输入特征矢量对各个类别(隐层节点)的“贡献”作为各子类转换规则的权值,转换后的特征矢量为各子类输出的加权,这种加权组合的方法使一定分类下的映射规则得以极大的增多,可以提高转换效果。实验结果表明,在相同的分类数时,RBFNN方法的转换效果优于CLT算法;并可在较少训练数据下也有较好的转换效果。
文中还详细讨论了共振峰参数合成器基本原理和组成结构,包括激励源模型和声道模型。由于激励源特征在确定说话人身份方面起着非常重要的作用,所以讨论了基音频率的提取和转换方法。通过共振峰合成器合成语音实验验证了其合成语音的效果。