论文部分内容阅读
基于隐马尔科夫模型(Hidden Markov Model, HMM)的统计参数语音合成是当今主流的语音合成方法之一。该方法在训练阶段利用录制的语音数据库,建立描述不同上下文环境下频谱、基频等声学特征分布的统计声学模型;在合成阶段,该方法依据输入文本的上下文信息,从训练的统计声学模型中生成声学特征,最终通过参数合成器重构语音波形。相对单元挑选与波形拼接合成方法,基于HMM的参数合成方法具有系统构建自动化程度高、合成语音平滑流畅、系统尺寸小等优势,但是其合成语音的自然度仍有待提高。基频描述了浊音产生过程中声带震动的频率,是一种重要的语音声学特征。在基于HMM的参数语音合成中,基频特征的预测性能对于合成语音的自然度有着直接的影响。此外,基频特征的差异对于体现情感语音合成中的不同目标情感也起到重要作用。相对频谱特征,基频特征是一种超音段特征,长时的基频轨迹形状受到语调、短语边界、轻重读等韵律属性的影响。而传统基于HMM的参数语音合成使用和频谱类似的基频特征提取尺度和建模方法,忽略了基频的长时特性,影响了合成语音的自然度。本文围绕统计参数语音合成中的基频建模与生成方法开展研究工作,使用长度规整基频矢量(FO Vector, FV)、目标逼近(Target Approximation, TA)特征等音节层表征作为基频特征,实现了基于目标逼近特征的基频建模,提出了基于音节层特征的生成基频后处理方法,提高了合成语音的自然度。此外,本文还进一步将基于目标逼近特征和高斯双向联想贮存器(Gaussian Bidirectional Associative Memories, GBAM)的后处理方法应用于合成语音的情感转换,对于高兴和生气情感,取得了优于传统的模型自适应方法的转换后语音情感表现力。本文的具体内容组织如下:第一章是绪论,将简要回顾语音合成技术的发展史,并介绍现阶段语音合成的主流方法、情感语音合成、以及基频的相关背景知识。在第二章将介绍基于HMM的参数语音合成方法,包括方法概述、训练端与合成端的核心算法、存在问题分析等,最后阐述了本文研究内容的动机与出发点。第三章具体介绍基于目标逼近特征的基频建模方法。该方法在训练阶段利用目标逼近模型对音节层的基频轨迹进行参数化处理,然后构建聚类决策树来描述不同上下文环境下的目标逼近特征分布;在合成阶段,该方法从预测的目标逼近参数中恢复音节基频轨迹,并结合传统方法生成的频谱特征恢复语音波形。实验结果表明了该方法可以生成较为自然的合成语音,也指出了其存在对于基频轨迹细节丢失的问题。第四章具体介绍基于音节层特征的生成基频后处理方法。该方法在训练阶段首先提取传统HMM合成方法预测基频以及录音语料中的自然基频所对应的音节层基频特征,包括基频矢量特征和目标逼近特征等,然后构建从预测基频音节层特征向自然基频音节层的特征映射的后处理模型,包括全局方差均衡化、GBAM.残差补偿模型等;在合成阶段,该方法对传统HMM方法预测的基频轨迹进行后处理,以得到最终的基频生成结果。主观实验结果表明该方法可以有效提高合成语音的自然度。第五章具体介绍基于目标逼近特征的合成语音情感转换方法。该方法针对在目标情感数据量有限情况下的情感语音合成系统构建问题,通过建立中立合成语音的音节层目标逼近特征向目标情感语音相应特征的映射关系,实现中立合成语音基频特征向目标情感的转换。本章使用GBAM模型进行不同情感间目标逼近特征的转换。实验结果表明,该方法对于高兴、生气等高唤醒度情感可以取得比最大似然线性回归(Maximum Likelihood Linear Regression, MLLR)模型自适应方法更好的合成语音情感表现力。第六章对全文进行了总结归纳。