论文部分内容阅读
近年来,随着语音技术的飞速发展,语音合成技术越来越趋于成熟,合成的语音音质和自然度方面都有了比较明显的提高。在合成领域,具有高表现力的情感合成越来越为研究者所重视。如何让机器合成出的语音更具有“人情味”,成为语音合成界关注的焦点。
同时,如何在不扩大训练数据库,不提高合成技术复杂度的情况下,通过对语音韵律特征的更好的建模,实现高自然度高表现力的语音合成,是对我们研究者提出的挑战。为此,本文对基于隐马尔可夫模型HMM(Hidden Markov Model)的高表现力的语音合成技术进行了系统的介绍,并为改善合成语音的表现力开展了深入的研究。整篇文章的结构安排如下:
论文第一章概括的论述了本文的研究背景。首先介绍了近几十年来语音合成技术的发展情况,然后简要分析了现有的几种常见的语音合成方法,与语音合成技术相关的概念与方法及高表现力语音合成技术的提出等。
论文第二章主要介绍了目前最为常用的基于HMM模型的可训练语音合成技术(Trainable TTS)的基本框架。包括Trainable TTS合成系统的流程,关键技术点,韵律参数的介绍及其相关的情感合成的知识,为本文在Trainable TTS表现力提升方面的工作做基础和铺垫。
论文第三章主要讨论从影响韵律的重要参数——基频特征提取方面来改善基线系统。针对现在基线合成系统存在的基频预测不准确的问题,我们考虑包含更多信息的长时单元——音节单元,理论上,更长单元的基频特征更能反映基频的走势特征。实验验证了在悲伤情感库上可以取得更好的效果。
论文第四章从基频建模方法这一角度来改善现有的基线合成系统的效果。针对现在合成系统存在的基频预测不准确的缺陷,我们认为现在基频与频谱同步建模方法存在问题。我们提出一种半异步建模的方法,即基频和频谱参数在一个音素内部对应不同的状态序列,最后通过实验总结了异步建模方法的性能表现。
论文第五章是从另一个影响韵律重要参数——时长角度来改善现有基线系统。主要方法是:结合音素单元的时长满方差建模。通过音素与状态加权的满方差模型对时长特征的预测,达到在预测总时长的情况下建立时长各个状态单元内部联系,从而更好的对时长进行预测的目的。
论文第六章简要介绍了作者参加Blizzard Challenge语音合成比赛的情况。