论文部分内容阅读
本文对汉语文语转换系统中需要使用的时长和基频模型均进行了深入的研究。以一个包含4848个汉语句子的大规模语音库为基础,将几种机器学习算法应用于韵律模型时长和基频的生成中。本文分别将人工神经网络和决策树应用于时长模型的学习,并在建模的过程中使用了一些数理统计的方法。此外,本文还在时长的生成上试验了基于语料库的方法。基频模型方面,本文尝试了基于语料库的方法,并随后提出了一种基于基频模式的方法。为了区分两个模型的性能,本文采用了常用的MOS(Mean Opinion Score)评价方法,实验结果表明,基于基频模式的生成方法明显优于基于语料库的方法。最后,本文利用基本的统计学方法,在一个小规模的情感语音库(包含三种情感,每种情感310句)上对情感相关的韵律参数进行了统计分析,并对情感语音时长和基频均值的生成进行了深入地研究。在建模的过程中,我们成功地解决了数据稀疏导致的过拟合问题。