论文部分内容阅读
说话人语音转换技术是把源说话人说的语音转换为像是目标说话人所说的语音的技术。说话人语音转换具有广泛的应用领域,比如文语转换(Text一to-Speech, TTS)系统、配音系统和保密通信等。本文提出了一种基于VQ模型与BP网络的高自然度语音转换方法。算法分为三个部分:前两部分用VQ模型实现了语音的谱包络及其激励的转换,第三部分采用BP算法实现语音的韵律转换规则建模。算法针对基音周期内残差波形的特点提出了循环互相关函数,有效地实现了残差波形聚类;针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音转换并得到高自然度合成语音。本文主要工作包括:(1)基于VQ模型实现了语音的谱包络转换。谱包络采用20阶LPC系数转换形成的线谱对频率系数LSF表示。相对于LPC参数,LSF具有更好的内插特性和量化特性。训练分别得到128个源语音的码向量和128个目标语音的码向量和由每一个源语音码向量到目标语音码向量的映射码书,映射码书就为目标语音向量的线性合成时的加权系数。转换后的语音的LSF系数更接近于目标说话人语音的LSF系数。(2)基于VQ模型实现了其激励的转换。对残差的转换分为两阶段,一是残差能量的转换,采用线性转换的方法;二是对残差波形的转换,采用的方法是基于VQ码本映射的模型。在残差波形转换中,定义了循环互相关函数,并以最大互相关值的相反数作为波形间的距离测度。转换后的语音残差信号更多的保留了目标说话人的信息。(3)采用BP算法实现语音的韵律变换规则建模。提取源说话人和目标说话人的相对基频曲线。用三层BP网络进行训练得到映射权值。在变换后的相对基频曲线加上目标语音的平均基频就得到转换后的基频曲线。算法针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音变换并得到高自然度合成语音,实验表明是一种有效的汉语语音转换算法。