论文部分内容阅读
随着语音信号统计建模方法的日益成熟和计算机处理能力的不断进步,近年来统计参数语音合成(Statistical Parametric Speech Synthesis)技术发展迅速。其中,基于隐马尔科夫模型(Hidden Markov Model, HMM)的参数语音合成因其具有合成语音流畅度好、系统构建自动化程度高、系统尺寸小等优点,已成为现今主流语音合成方法之一。然而,该方法存在合成语音音质受损、自然度不高的问题。频谱特征声学模型的精度不足和参数生成过程中的过平滑效应是造成合成语音音质受损的主要原因。因此,本文围绕基于HMM的统计参数语音合成中的频谱建模和参数生成方法展开研究工作。首先,本文研究结合对数功率谱全局方差(Log Power Spectrum Global Variance, LPS-GV)的最小生成误差(Minimum Generation Error, MGE)模型训练方法,以实现不增加合成端运算量的前提下合成语音自然度提升;其次,本文研究基于受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)的频谱状态建模与参数生成方法,以改善原有方法参数生成阶段使用高斯近似带来的模型精度损失问题;最后,本文研究结合RBM建模与GV参数生成的频谱特征预测方法,通过组合两者的技术优势,进一步提升合成语音的自然度。整篇文章的结构安排如下:第一章是绪论,其中简单介绍了基于HMM统计参数语音合成方法的基本原理,回顾了其发展历史以及技术现状。第二章介绍了一种针对线谱对(Line Spectral Pairs, LSP)参数的频谱模型训练方法。该方法使用结合LPS-GV的MGE模型训练准则,避免了原有LPS-GV参数生成方法运算复杂度过高的问题,在不增加合成端运算量的前提下,提高了传统MGE训练方法合成语音的自然度。第三章主要研究基于受限玻尔兹曼机(RBM)的频谱状态建模与参数生成方法。首先,本文设计并实现了一种基于Gibbs采样的高斯近似均值估计方法,该方法可以取得与原有的基于梯度下降的高斯近似方法相近的合成语音性能。然后,本文提出了一种结合动态参数约束的RBM-HMM参数生成方法,该方法相对高斯近似参数生成方法可以取得更高的合成语音自然度。第四章主要研究结合RBM建模与GV参数生成的频谱特征预测方法,以综合RBM建模精度高和GV参数生成方法可改善过平滑效应的技术优势。本文设计实现了两种不同的结合RBM建模与GV参数生成的方式。实验结果表明,相对使用单一技术,两者结合后可以进一步提升合成语音的自然度。第五章将对全文进行总结。