结合发音特征与深度学习的语音生成方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：zhang328061832

【摘要】

：

发音特征指的是人类语音产生过程中舌头、牙齿、嘴唇等发音器官的位置和运动特征。发音特征描述层次化语音产生过程中的生理层信息,与声学特征紧密相关,同时又具有物理意义明

【作者】

：

刘正晨

【出处】

：

中国科学技术大学

【发表日期】

：

2018年期

【关键词】

：

语音生成声学模型发音特征深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

发音特征指的是人类语音产生过程中舌头、牙齿、嘴唇等发音器官的位置和运动特征。发音特征描述层次化语音产生过程中的生理层信息,与声学特征紧密相关,同时又具有物理意义明确、受环境噪声影响小等优点。因此,近年来结合发音特征的语音信号处理方法受到了广泛的研究关注。本文围绕结合发音特征的语音生成方法开展研究,重点关注发音特征到声学特征转换与结合发音特征的统计参数语音合成两个任务。发音特征到声学特征转换旨在建立发音特征到声学特征的映射关系,实现在只使用发音特征的情况下生成自然可懂的语音信号。该技术在静默语音接口、可控语音合成、话者与口音转换等方面有着应用价值。现阶段该技术研究主要集中于发音特征到反映声道滤波器特性的频谱特征的转换,对于发音特征到声源激励相关的能量、清浊判决、基频等声学特征转化方法的研究较为缺乏。此外,已有研究工作主要使用混合高斯模型(Gaussian mixture model,GMM)建立发音特征到声学特征的映射关系,也存在建模精度不足以及生成语音质量不高的问题。结合发音特征的统计参数语音合成旨在将发音特征融入统计参数语音合成的声学建模,改善从文本预测声学特征的精度与合成语音的自然度。统计参数语音合成是现阶段实现文本到语音转换的主流方法,具有系统构建自动化程度高、合成语音平稳流畅、灵活性与拓展能力强等优点。已有的结合发音特征的统计参数语音合成声学建模研究,主要在隐马尔可夫模型(hidden Markov model,HMM)和隐藏式轨迹模型(hidden trajectory model,HTM)框架下开展。近年来,深度前馈网络(deep forward networks,DFN)和递归神经网络(recurrent neural network,RNN)等深度学习模型在统计参数语音合成的声学建模中得到了成功应用,而在在深度学习框架下结合发音特征的声学建模研究仍不多见。因此,本文研究结合发音特征与深度学习的语音生成方法,在发音特征到声学特征转换与结合发音特征的统计参数语音合成两个主要方面开展工作,具体包括:首先,研究了基于深度学习的发音特征到声学特征转换方法。针对传统GMM模型对特征间非线性关系建模能力的不足,本文提出使用DFN和RNN等深度学习模型进行发音特征到声学特征的转换,取得了优于GMM模型的频谱特征预测精度与生成语音质量。此外,本文在发音特征到频谱特征转换基础上,利用深度学习模型探索了从发音特征预测能量、清浊判决、基频等激励特征的可行性,实现了只依赖发音特征的语音波形生成。其次,研究了结合语言知识和级联预测的发音特征到声学特征转换方法。为了弥补发音特征自身描述能力的不足,进一步提升发音特征到声学特征的转换精度,本文提出了两种对发音特征到声学特征转换中的输入特征进行增强的策略。一方面,利用发音特征到音素标签的分类器提取语言知识加入模型输入端;另一方面,设计级联形式的多特征预测模型结构,利用生成的频谱特征来辅助预测激励相关声学特征。实验结果表明了以上方法在改善声学特征预测精度与提高生成语音质量上的有效性。再次,研究了结合发音特征与深度学习的语音合成声学建模方法。针对现有统计参数语音合成声学模型建模精度仍需提高、合成语音自然度仍需改善的问题,本文提出将发音特征引入基于深度学习方法的语音合成声学建模中,并且基于多任务学习框架设计实现了三种声学模型结构,包括基于简单多任务学习的声学建模、基于层次化语音产生的多任务学习声学建模和基于结构化输出层的多任务学习声学建模。实验结果表明上述三种模型相对传统深度学习声学建模均能取得不同程度的合成语音自然度提升,其中以基于结构化输出层的多任务学习声学建模方法效果最优。最后,研究了基于蒸馏学习的语音合成声学建模方法。蒸馏学习是一种新近提出的知识迁移方法。本文研究了在神经网络框架下蒸馏学习用于回归任务的实现算法,提出了基于神经网络蒸馏学习的语音合成声学建模方法,以提升统计参数语音合成声学建模对于发音特征的利用效果。实验结果表明,该方法相对多任务学习方法,可以进一步提升结合发音特征后统计参数语音合成系统的声学特征预测精度与合成语音自然度。此外,在无法获取发音特征的情况下,该方法同样可以利用线谱对、短时谱等辅助声学特征来改善声学建模效果。

其他文献

一起转移财产逃避处罚案的应对

2012年10月,J市质监局查处了J市某汽车贸易有限公司（以下简称“J汽车公司”）擅自改装汽车发动机并伪造《机动车整车出厂合格证》销售牵引车的违法案件,经调查审理,J市质监局于2

期刊

行政处罚决定财产汽车公司行政复议人民政府汽车发动机质监局违法案件

电子技术在广电系统中的应用

在全球进入信息化时代,广电系统进行了一场变革,数控技术也随之发生了翻天覆地的变革,数控技术将成为关键技术。现要阐明广电管理人员对数控技术的理解和认识。二十一世纪的

期刊

数控技术广电系统

基于人工蜂群算法的高维多极值函数的全局优化

人工蜂群算法经过多年的研究和应用,该算法已经发展到了一定的阶段.然而,与其他随机仿生优化算法一样,算法在解决高维问题时还是存在容易陷入局部最优解、收敛速度慢等问题.

学位

仿生群智算法人工蜂群算法适应度函数进化策略全局优化

校园贷服务平台法律监管制度的完善

本文在对校园贷平台进行基本界定和介绍的基础上,概括了校园贷平台的现状及存在的问题,引出对现有校园贷平台进行监管的必要性。从监管的基础、具体措施及机制三个方面,深入

学位

校园贷服务平台监管完善

添加La元素对NdFeB磁体磁性能的影响

采用球磨法在NdFeB中成功添加不同含量的La元素,利用VSM对不同La添加量和球磨时间的混合磁体性能进行研究。实验结果表明,当La添加量为3%时,样品的饱和磁化强度最大,矫顽力最

期刊

La元素NdFeB磁体组织结构磁性能

制药工程专业实践教学环节改革的探讨

从教改的角度分析了制药工程专业实践教学的现状及存在问题,探讨了实践教学在制药工程人才培养中的作用;从实验教学模式改革、实习环节加强校内外实习基地建设和改善实践教学

期刊

制药工程专业实践教学创新人才

结合发音特征与深度学习的语音生成方法研究

其他学术论文