论文部分内容阅读
语音转换是指将A说话人的语音进行转换并使其听起来像B说话人的语音,且保持语义内容不变的一种技术。传统的说话人语音转换方法大多基于平行语料,通过对平行训练语料的联合训练得到短时谱转换函数。但由于实际情况的限制,完全平行的高质量训练语料是非常难以获得有时甚至是不可能获得的,并且联合训练计算量大,故平行语料语音转换的发展受到限制。本文提出约束条件下结构化高斯混合模型并将其应用于非平行语料语音转换。首先,从源与目标说话人的非平行语料中提取出少量相同音节,在结构化高斯混合模型(SGMM:Structure Gaussian Mixture Model)的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在期望最大化迭代过程中对语音帧属于某高斯分量的后验概率进行修正,训练出基于约束的结构化高斯混合模型。然后,根据全局声学结构原理,利用模型快速匹配算法对源和目标说话人的约束条件下的结构化高斯混合模型的高斯分布进行匹配对准,得到短时谱转换函数。主观及客观评价实验结果表明,在转换后语音与目标语音之间的谱失真,转换后语音的目标倾向性和转换后语音的质量等方面,使用本文提出的转换方法优于传统的结构化语音转换方法,转换系统的性能也与基于平行语料的语音转换方法的性能更为接近。本课题主要对以下几个方面进行研究:1、通过对高斯混合模型(GMM:Gaussian Mixture Model)的理解和分析,将GMM应用于平行语料语音转换系统,对其转换性能进行评价并指出该方法的特点及存在的问题。2、深入研究全局声学结构及其原理,详细分析传统结构化非平行语料语音转换方法存在的问题,提出了一种快速模型匹配算法和基于约束条件的结构化高斯混合模型的非平行语料语音转换方法。3、在基于少量约束信息的基础上,实现高质量结构化非平行语料语音转换系统。4、利用主观和客观测评准则,对传统的高斯混合模型转换法,传统的结构化方法以及约束条件下的SGMM(C-SGMM)方法的实验结果进行测评,并对测评结果进行详细的分析,说明本课题提出方法的有效性及优越性。