论文部分内容阅读
语音合成旨在将输入文本转换成自然流畅的语音。统计参数语音合成(Sta-tistical Parametric Speech Synthesis,SPSS)具有系统构建 自动化程度高、存储尺寸小、灵活性强等优点,已成为目前构建语音合成系统的主流方法。传统基于隐马尔科夫模型(Hidden Markov Model,HMM)的统计参数语音合成方法能够生成连续平稳流畅且可懂度高的语音,但生成的语音频谱通常过于平滑,这导致合成语音音质下降,与自然语音仍有较大差距。近些年来,深度学习作为机器学习的一个分支发展迅速。深度学习通常指采用多层人工神经网络进行建模的方法,在图像识别、计算机视觉、自然语音处理、自动语音识别等任务上均取得了相比传统方法的显著效果提升。在统计参数语音合成中,深度学习方法在声学建模、特征提取、后滤波、波形生成等模块中均取得了成功应用,逐渐取代HMM方法成为现阶段统计参数语音合成的研究热点。本文围绕基于神经网络的统计参数语音合成方法,从基于深度学习的频谱表征和声学模型构建两个方面开展研究工作。在频谱表征方面,将深度学习模型引入频谱特征提取过程,分别提出了基于深度信念网络(Deep Belief Network,DBN)、卷积神经网络(Convolutional Neural Network,CNN)以及二值隐层深度自编码器(Deep Auto-Encoder with Binary distributed hidden units,BDAE)的频谱表征方法;在声学建模方面,对传统训练准则进行改进,提出了基于生成对抗网络(Generative Adversarial Network,GAN)的声学建模方法。具体包括:首先,针对传统频谱表征中梅尔倒谱(mel-cepstrum)提取过程缺乏对于谱包络的非线性处理能力、预测频谱过平滑的问题,本文提出了基于深度信念网络的频谱表征方法。该方法使用无监督训练的DBN对语音的谱包络进行建模,以DBN的最高隐层采样作为语音的频谱表征进行声学建模,缓解了合成语音的过平滑问题。其次,针对现有频谱表征方法对语音频谱包络中的共振峰等局部结构缺乏关注的问题,本文提出了基于卷积神经网络的频谱表征方法。考虑到CNN对样本局部结构的检测提取能力,该方法使用基于CNN的自编码器对频谱包络中共振峰等局部结构的强度和位置表征进行提取,并在语音合成系统中分别对其建模。该方法可以较好的还原语音频谱中的局部结构,提升了合成语音音质。.再次,针对现有频谱表征方法中频谱特征提取与声学建模相互独立、缺乏统一考虑的问题,本文提出了基于二值隐层深度自编码器的频谱表征方法。该方法通过约束深度自编码器隐层节点接近二值分布,降低了所提取频谱特征的模型预测误差对于最终恢复的频谱包络的影响,缓解了声学建模所带来的频谱平滑效应。多个数据集上的实验结果表明,该方法可以显著提高语音合成的音质。最后,针对传统最大似然以及最小均方误差训练准则导致的声学模型统计平滑效应,本文提出了基于生成对抗网络的声学建模方法。该方法将低维倒谱和文本特征同时作为条件输入到GAN模型中,进行高维谱包络的预测,实现了稳定且高质量的语音生成。