论文部分内容阅读
语音转换技术是语音识别、语音合成技术发展到一定阶段的综合产物,同时也是语音信号处理领域的一个重要分支。语音转换的目的是通过改变源说话人的语音特征参数,使转换参数合成语音听起来像是由目标说话人发出的,本质是特征参数的转换。这项技术几乎囊括了语音信号处理领域的各个方面,它的研究和发展对语音分析合成、语音编码、语音增强和语音识别等方面有重要的促进作用。一个语音转换系统包含两个阶段:训练和转换阶段。在训练阶段,得到参数映射规则。在转换阶段,根据映射规则,对源说话人的个性特征参数进行转换,把转换后的参数重建语音信号,得到转换语音。一般来说,一个语音转换系统的设计需要考虑以下三个方面的因素:一个有效的语音分析合成模型、一种理想的参数转换规则和代表语音个性特征的特征参数。研究表明,正弦模型是一种很好的参数语音模型,本文在对正弦语音模型研究的基础上,设计并实现了一种正弦谐波分析合成的语音转换系统,包含以下几个内容:(1)对语音分析合成模型的研究。为了得到高质量的转换合成语音,以正弦语音模型为基础,研究了基于正弦变换编码的分析合成算法,并对算法中峰值提取模块进行了改进,新的峰值提取算法增强了相邻两帧参数的相关性,提高了峰值提取的准确性,改善了合成语音的质量。(2)为了便于语音特征参数的训练和转换,在正弦模型的基础上,研究了约束简化的正弦模型,即正弦谐波模型,也能很好地重建原始语音。在正弦谐波模型中,首先估计语音的基音频率,然后用最小二乘法估计谐波幅度和相位。基音频率是语音信号韵律特性的主要组成部分,代表了激励源的特性,便于韵律特性的转换。(3)设计并实现了一种基于正弦谐波模型的语音转换系统。在训练阶段,提取源和目标语音的基音频率和倒谱参数,把倒谱参数进行联合概率密度建模,用GMM训练,EM算法求解模型参数,得到频谱参数的映射规则。在转换阶段,用均值线性法转换基音频率,根据映射规则转换倒谱参数。在转换合成时,为了改善转换语音的质量,对转换参数进行插值处理。(4)为了测试特征参数的转换效果,分别进行了男女声之间基音频率和倒谱参数的转换实验。(5)为了测试语音转换系统的转换效果和性能,分别用主观评价标准的ABX测试和客观评价标准的信噪比方式测试了转换语音。根据ABX的测试结果来看,本文设计的转换系统能实现韵律特性的完全转换,谱包络的部分转换,转换语音质量良好。