论文部分内容阅读
语音信号处理的研究有着较长的历史,随着计算机技术的飞速发展,又有了越来越广泛和新颖的应用前景,声音的转换就是其中一个重要的应用。 声音转换(VoiceConversion)是一种通过改变人的声音特征使得源唱歌人的声音听起来像另一个指定目标唱歌人的声音而保持唱歌内容不变的技术。声音转换技术在同声传译、电影以及电视中的剪辑和配音,以及语音合成后端声音的个性化处理方面都有着广泛的前景。目前主要的声音转换方法都是基于大规模声音训练样本的,这些方法需要对每一个唱歌人建立一个语料库,使得语料库的规模非常庞大,而且合成后的声音质量往往效果不理想。声音转换技术目前仍处于实验探索阶段。 本文基于歌声的声音转换主要是针对目前研究比较薄弱的连续语音以及带有很强节奏韵律的声音的音色转换,并且在小规模训练样本下音色转换的方法进行了探索。 本文的主要研究工作包括: (1)特征参数的选取在音色转换过程中是非常关键的部分,它的精确度将直接影响着转换的效果。在全面分析语音信号的众多特征参数的基础上,本文采用并提取了LPC系数,进行音色转换,利用线性预测的残差可以非常好的模拟唱歌人声源的激励信号。 (2)现有音色转换的方法主要是基于GMM模型,隐马尔可夫模型和矢量量化技术等,这些方法都需要大量的训练样本才可以实现音色转换。本文采用了一种基于线性预测技术,无需训练样本或少量训练样本的语音转换模型,并在模拟实验中实现了声音转换。 (3)研究表明,基频(pitch)对人的音色形成具有重要的作用,因此,本文通过实验,采用基于TD-PSOLA的方法,通过改变基音频率实现音色转换,获得了对于非特定人声音音色转换的良好实验效果。 最后,本文对上述算法进行了实验评测,由实验得到的结论反映了在少量训练样本的情况下,音色转换的实现也是具有可行性的。为少训练样本的音色转换的进一步应用提供了基础。