论文部分内容阅读
合成语音自然度的提升是当前语音合成系统关注的首要问题,而韵律结构预测和语调生成是其中的关键技术。本文针对参数化语音合成系统中韵律结构预测和韵律声学参数生成、语调控制等进行了研究,建立了基调归一化的语调表示方法,提出了语调控制模型。论文的主要工作如下:1.论文提出了一种基于决策树的韵律结构预测算法。首先收集了汉语大规模文本语料,对其进行了人工韵律标注,并分析归纳了语法、语义对韵律结构生成的约束。选取了语法和语音相关的特征集,设计了相应的问题集,实现了基于决策树的韵律结构预测算法。试验证明,本韵律结构预测算法可以取得较好的预测正确率。2.提出了一种基于基调与降阶指数的参数化语调表示方法。论文统计分析了大规模陈述语句音高和音高变化的表现,定义了描述陈述语调的特征参数基调与降阶指数,提出了基于基调与降阶指数的参数化语调表示方法,在语料库中训练了语调特征参数。针对语句中的任意声调组合,计算了基调归一化参数,实现了对语料库中含有任意声调音节的句子语调的分析和处理。3.提出了一种参数化语音合成系统中合成语音的语调控制方法。采用本文所提出的参数化语调表示方法在合成语料库上训练了基础语调特征参数。根据基调与降阶指数的需求,计算新的特征参数,更新HMM合成系统中待合成语音的声学参数,合成了富于变化的陈述语调。提出了一种疑问语调调型的差异模型,使用MSDHMM训练疑问句与陈述句语调差异,并对差异的MSDHMM参数进行聚类,得到了生成疑问句语调的差异参数。将疑问语调调型的差异模型应用于HMM合成系统中,实现了疑问句语调生成。4.基于发声生理模型,利用分析–合成的方法分析了生理发声参数对声学特征影响。抽取了愤怒情感中冷怒(cold anger)与暴怒(hot anger)的声学特征,分析表明这两种情感语音的频谱高频部分的变化不同。基于生理发声模型,分别修改声管和声源参数,模拟生成的上述两种情感语音表明,声管与声源参数引起语音频谱的不同改变。5.构建了具有语调可控的参数化合成系统,基于论文提出的语调控制模型与参数化语调表示方法,实现了对合成语调的控制,并可以实现疑问语调的生成。