论文部分内容阅读
发音特征指的是人类语音产生过程中舌头、牙齿、嘴唇等发音器官的位置和运动特征。发音特征描述层次化语音产生过程中的生理层信息,与声学特征紧密相关,同时又具有物理意义明确、受环境噪声影响小等优点。因此,近年来结合发音特征的语音信号处理方法受到了广泛的研究关注。本文围绕结合发音特征的语音生成方法开展研究,重点关注发音特征到声学特征转换与结合发音特征的统计参数语音合成两个任务。发音特征到声学特征转换旨在建立发音特征到声学特征的映射关系,实现在只使用发音特征的情况下生成自然可懂的语音信号。该技术在静默语音接口、可控语音合成、话者与口音转换等方面有着应用价值。现阶段该技术研究主要集中于发音特征到反映声道滤波器特性的频谱特征的转换,对于发音特征到声源激励相关的能量、清浊判决、基频等声学特征转化方法的研究较为缺乏。此外,已有研究工作主要使用混合高斯模型(Gaussian mixture model,GMM)建立发音特征到声学特征的映射关系,也存在建模精度不足以及生成语音质量不高的问题。结合发音特征的统计参数语音合成旨在将发音特征融入统计参数语音合成的声学建模,改善从文本预测声学特征的精度与合成语音的自然度。统计参数语音合成是现阶段实现文本到语音转换的主流方法,具有系统构建自动化程度高、合成语音平稳流畅、灵活性与拓展能力强等优点。已有的结合发音特征的统计参数语音合成声学建模研究,主要在隐马尔可夫模型(hidden Markov model,HMM)和隐藏式轨迹模型(hidden trajectory model,HTM)框架下开展。近年来,深度前馈网络(deep forward networks,DFN)和递归神经网络(recurrent neural network,RNN)等深度学习模型在统计参数语音合成的声学建模中得到了成功应用,而在在深度学习框架下结合发音特征的声学建模研究仍不多见。因此,本文研究结合发音特征与深度学习的语音生成方法,在发音特征到声学特征转换与结合发音特征的统计参数语音合成两个主要方面开展工作,具体包括:首先,研究了基于深度学习的发音特征到声学特征转换方法。针对传统GMM模型对特征间非线性关系建模能力的不足,本文提出使用DFN和RNN等深度学习模型进行发音特征到声学特征的转换,取得了优于GMM模型的频谱特征预测精度与生成语音质量。此外,本文在发音特征到频谱特征转换基础上,利用深度学习模型探索了从发音特征预测能量、清浊判决、基频等激励特征的可行性,实现了只依赖发音特征的语音波形生成。其次,研究了结合语言知识和级联预测的发音特征到声学特征转换方法。为了弥补发音特征自身描述能力的不足,进一步提升发音特征到声学特征的转换精度,本文提出了两种对发音特征到声学特征转换中的输入特征进行增强的策略。一方面,利用发音特征到音素标签的分类器提取语言知识加入模型输入端;另一方面,设计级联形式的多特征预测模型结构,利用生成的频谱特征来辅助预测激励相关声学特征。实验结果表明了以上方法在改善声学特征预测精度与提高生成语音质量上的有效性。再次,研究了结合发音特征与深度学习的语音合成声学建模方法。针对现有统计参数语音合成声学模型建模精度仍需提高、合成语音自然度仍需改善的问题,本文提出将发音特征引入基于深度学习方法的语音合成声学建模中,并且基于多任务学习框架设计实现了三种声学模型结构,包括基于简单多任务学习的声学建模、基于层次化语音产生的多任务学习声学建模和基于结构化输出层的多任务学习声学建模。实验结果表明上述三种模型相对传统深度学习声学建模均能取得不同程度的合成语音自然度提升,其中以基于结构化输出层的多任务学习声学建模方法效果最优。最后,研究了基于蒸馏学习的语音合成声学建模方法。蒸馏学习是一种新近提出的知识迁移方法。本文研究了在神经网络框架下蒸馏学习用于回归任务的实现算法,提出了基于神经网络蒸馏学习的语音合成声学建模方法,以提升统计参数语音合成声学建模对于发音特征的利用效果。实验结果表明,该方法相对多任务学习方法,可以进一步提升结合发音特征后统计参数语音合成系统的声学特征预测精度与合成语音自然度。此外,在无法获取发音特征的情况下,该方法同样可以利用线谱对、短时谱等辅助声学特征来改善声学建模效果。