论文部分内容阅读
声音转换技术是在保持语义内容不变情况下,改变一个说话人语音中的个性信息使其具有另外一个说话人的发音特征。它是语音信号处理领域一个较新的分支。对这项技术的研究不仅对语音编码、语音合成、语音增强和语音识别等语音信号处理领域具有促进意义,同时它还可以应用于多媒体娱乐、医疗、保密通信等方面具有广泛的应用价值。基于高斯混合模型(Gaussian Mixture Model,GMM)的转换方法是目前主流的声音转换方法。该方法采用统计建模的方式建立转换关系,具有相似度高、鲁棒性好的优点。但是其得到的转换语音的音质受过平滑效应的影响仍有待提高。并且这种方法获得的转换模型是源和目标说话人相关的,针对新的转换说话人对需要重新训练模型,使得模型在使用灵活性上存在缺陷。 本文围绕改善基于GMM模型的声音转换方法的转换效果与提高转换模型的使用灵活性两方面展开研究。基于GMM模型转换方法中的过平滑效应问题主要由两个原因产生:1)建模采用的高层频谱特征从原始频谱上提取得到,特征的提取过程导致频谱细节信息丢失;2)GMM只能建立线性转换关系,对源和目标频谱特征的非线性转换关系建模不足。为此,本文提出直接采用频谱包络特征进行建模。针对GMM模型对频谱包络特征建模困难的问题,本文提出了一种采用高斯型双向联想贮存器(Gaussian Bidirectional Associative Memory,GBAM)实现对源和目标频谱包络联合特征建模的方法,提高了转换语音的自然度和相似度。由于GBAM建立的仍然是源和目标频谱包络的线性转换关系,本文在受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)和伯努利型BAM(Bernoulli BAM,BBAM)基础上进一步研究了一种基于产生式训练的深度神经网络模型(Generative Trained Deep Neural Network,GTDNN),这种模型可以建立源和目标频谱包络的非线性转换关系,进一步提升了转换语音的效果。此外,为了提高转换模型的使用灵活性,本文提出基于多源说话人数据训练的DNN的频谱转换模型。在这种方式下得到的DNN可以作为源说话人无关模型,直接用于实现任意源说话人到特定目标说话人的转换,使得转换更加方便。实验结果显示,采用这种DNN模型对新说话人的频谱转换时,能够获得与传统基于GMM模型接近的转换效果。另外,这种模型可用于对传统DNN模型初始化,相较于采用深度置信网络(Deep Belief Network,DBN)的初始化方式,可进一步提高传统DNN模型转换语音的自然度。