论文部分内容阅读
统计参数语音合成为了语音合成领域的主流合成方法,该方法能够利用有限的训练语料合成出不同说话人、不同风格和不同情感的语音,具有容易改变合成语音的音质、模型占用存储空间小等优点。论文以藏语的统计参数语音合成的合成语音质量的评测为研究目标,提出了一种面向藏语统计参数语音合成的语音基元自动标注方法,考察了不同基元、不同时间标注对藏语统计参数藏语合成系统合成的语音音质的影响,同时引入说话人识别方法对合成语音和源说话人的语音的相似程度进行了评测。论文的主要工作与创新如下:1.提出了一种面向藏语统计参数语音合成的语音基元自动标注方法。在基于隐Markov模型(Hidden Markov Model,HMM)的藏语统计参数语音合成的声学模型训练中,引入了DAEM(Deterministic Annealing Expectation Maximization)算法,对没有时间标注的藏语训练语音进行自动时间标注。以声母和韵母为合成基元,在声母和韵母的声学模型的训练过程中,利用DAEM算法确定HMM模型的嵌入式重估的最佳参数。训练好声学模型后,再利用强制对齐自动获得声母和韵母的时间标注。实验结果表明,该方法对声母和韵母的时间标注接近手工标注的结果。2.考察了不同语音基元和不同的基元时间标注对藏语合成语音音质的影响。分别利用自动标注了时间边界和手工标注了时间边界的藏语语料库训练声学模型,实现基于HMM的藏语统计参数语音合成系统。在此基础上,分别考察了以声、韵母为合成基元和以音节为合成基元对合成语音音质的影响。同时也考察了手工时间标注和自动时间标注对合成语音音质的影响。结果表明,在训练语料少时,两种不同基元合成的藏语语音音质都比较差。随着训练语料的增加,两种不同基元合成的藏语语音音质都在提高。最终在一定训练语料情况下,两种不同基元可以合成语音音质近似的语音。同时,以音节为基元时用自动标注时间的训练语料合成的藏语语音与用手工标注时间的训练语料合成的藏语语音音质还有一定的差距。3.提出了一种利用说话人识别方法评测合成语音与目标说话人的相似程度的方法。采用经验模态分解法(Empirical Mode Decomposition,EMD)和短时分析相结合的说话人识别方法对合成语音进行说话人识别,通过识别结果判断合成语音与目标说话人的相似程度。结果表明,合成的藏语语音与目标说人具有较高的相似程度。