论文部分内容阅读
语音合成是实现人机交互的关键技术之一,具有广阔的应用前景,其研究目标是合成出清晰、自然、有表现力的语音,而韵律预测则是实现这一目标的关键。本文围绕汉语语音合成中的韵律预测问题展开,重点研究了汉语韵律结构、音节时长、基频曲线的预测方法。
汉语语音中的韵律单元具有层级结构,本文针对这一特点,面向韵律结构中最为重要的韵律词边界和韵律短语边界预测问题,实现了一种分层预测方法。方法中采用了条件随机场和最大熵模型,并基于词法分析的结果对最低层单元——韵律词进行边界预测。进一步将这一层次的预测结果用于上一层次单元——韵律短语的预测。实验结果表明,这种分层预测方法可以很好地预测韵律词和韵律短语。
在文本分析和韵律结构预测工作的基础上,本文进一步开展了对音节时长的预测工作。文中针对此类预测问题的特点,改进了最大熵模型,使之能够预测出连续值。实验表明,基于这种改进最大熵模型的音节时长预测方法比传统的基于分类回归树的方法具有更好的性能。
在基频曲线的预测方法研究中,本文基于Pitch Target理论框架,结合前人研究,提出了新的基频曲线表示法,实验表明新方法对实际语音的基频曲线具有更好的拟合特性。文中分别采用了分类回归树和改进最大熵模型,基于各种语言和韵律相关特征,实现了对基频曲线参数的预测。在开集测试中,本文实现的系统所预测基频曲线的:RMSE为30.49Hz,优于广泛采用的基于分类回归树的方法。