论文部分内容阅读
语音合成技术日趋成熟,己广泛应用于社会生活的各个领域,为人们带来了便利。但在应用多样化与用户多样化的形势下,人们也对语音合成效果提出了更高的要求,而目前,各种技术合成的语音相对自然语音而言,仍然显得比较机械,还普遍存在着自然度不够高、音质不够清晰以及音色失真等问题。本文基于隐马尔科夫模型(HiddenMarkovModel,HMM)的可训练语音合成(TrainableTTS)技术,从其关键的决策树算法入手,分别对文本分析前端和语音生成后端使用到的决策树算法进行了改进。
在文本分析前端,其效果瓶颈在于韵律短语边界的预测,本文对此进行了重点研究,引入韵律短语条件概率,使用Viterbi算法同时优化韵律短语边界概率和条件概率,并提出了基于关键词在韵律短语中的位置分布特性的决策树节点概率优化方法,有效的改善了韵律短语边界预测的效果。而在语音生成后端,本文引入GBDT(GradientBoostDecisionTree)决策树聚类算法,分别应用在频谱、基频、时长等三个维度的语音参数上,通过实验发现,该方法一方面在一定程度上提升了合成语音的音质,另一方面用其压缩决策树,可有效降低嵌入式语音合成产品的资源占用,提高产品的灵活性。以下是本文的结构安排:
论文第一章是绪论,在其中将简单介绍语音合成技术与决策树算法的研究内容与国内外研究进展,重点介绍决策树算法在语音合成系统中的应用以及本文的主要研究方向。
论文第二章将介绍分类数据挖掘理论与现有的几种主流的决策树算法,及决策树算法的训练、生成与剪枝方法,并在后半部分描述了随机森林与GBDT算法。这些内容是本文研究工作的基础所在,也是后续章节研究内容的基本出发点。
论文第三章重点介绍提出的改进的基于决策树算法的L3边界预测方法,并通过实验证明了通过该方法在语音合成系统中进行L3边界预测,可以有效提高F-Score值并降低不可接受率。
论文第四章介绍了GBDT算法在基频参数、频谱参数以及时长参数上的应用,实验表明该方法在频谱参数取得的效果最为明显,而在基频和时长这两维参数上取得的效果是主观听感均无明显改善,但在客观指标上有提升。
最后,本文在第五章中对全文进行了总结,并指出了当前决策树改进方法中存在的问题以及下一步的研究方向。