基于神经网络的统计参数语音合成方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zgs352262
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成旨在将输入文本转换成自然流畅的语音。统计参数语音合成(Sta-tistical Parametric Speech Synthesis,SPSS)具有系统构建 自动化程度高、存储尺寸小、灵活性强等优点,已成为目前构建语音合成系统的主流方法。传统基于隐马尔科夫模型(Hidden Markov Model,HMM)的统计参数语音合成方法能够生成连续平稳流畅且可懂度高的语音,但生成的语音频谱通常过于平滑,这导致合成语音音质下降,与自然语音仍有较大差距。近些年来,深度学习作为机器学习的一个分支发展迅速。深度学习通常指采用多层人工神经网络进行建模的方法,在图像识别、计算机视觉、自然语音处理、自动语音识别等任务上均取得了相比传统方法的显著效果提升。在统计参数语音合成中,深度学习方法在声学建模、特征提取、后滤波、波形生成等模块中均取得了成功应用,逐渐取代HMM方法成为现阶段统计参数语音合成的研究热点。本文围绕基于神经网络的统计参数语音合成方法,从基于深度学习的频谱表征和声学模型构建两个方面开展研究工作。在频谱表征方面,将深度学习模型引入频谱特征提取过程,分别提出了基于深度信念网络(Deep Belief Network,DBN)、卷积神经网络(Convolutional Neural Network,CNN)以及二值隐层深度自编码器(Deep Auto-Encoder with Binary distributed hidden units,BDAE)的频谱表征方法;在声学建模方面,对传统训练准则进行改进,提出了基于生成对抗网络(Generative Adversarial Network,GAN)的声学建模方法。具体包括:首先,针对传统频谱表征中梅尔倒谱(mel-cepstrum)提取过程缺乏对于谱包络的非线性处理能力、预测频谱过平滑的问题,本文提出了基于深度信念网络的频谱表征方法。该方法使用无监督训练的DBN对语音的谱包络进行建模,以DBN的最高隐层采样作为语音的频谱表征进行声学建模,缓解了合成语音的过平滑问题。其次,针对现有频谱表征方法对语音频谱包络中的共振峰等局部结构缺乏关注的问题,本文提出了基于卷积神经网络的频谱表征方法。考虑到CNN对样本局部结构的检测提取能力,该方法使用基于CNN的自编码器对频谱包络中共振峰等局部结构的强度和位置表征进行提取,并在语音合成系统中分别对其建模。该方法可以较好的还原语音频谱中的局部结构,提升了合成语音音质。.再次,针对现有频谱表征方法中频谱特征提取与声学建模相互独立、缺乏统一考虑的问题,本文提出了基于二值隐层深度自编码器的频谱表征方法。该方法通过约束深度自编码器隐层节点接近二值分布,降低了所提取频谱特征的模型预测误差对于最终恢复的频谱包络的影响,缓解了声学建模所带来的频谱平滑效应。多个数据集上的实验结果表明,该方法可以显著提高语音合成的音质。最后,针对传统最大似然以及最小均方误差训练准则导致的声学模型统计平滑效应,本文提出了基于生成对抗网络的声学建模方法。该方法将低维倒谱和文本特征同时作为条件输入到GAN模型中,进行高维谱包络的预测,实现了稳定且高质量的语音生成。
其他文献
为了研究煤热解过程中升温速率及热解温度对热解产物分布及热解过程吸热量的影响,采用热重和热红联用技术对煤热解过程进行了分析.研究了不同升温速率和热解温度对煤热解过程
本文主要介绍光时域反射仪的工作原理和常用技术指标,说明光纤测量中参数的设置及测量方法,结合工作实践探讨了OTDR在实际光纤测量中的几点经验和技巧。
现在的广播发射台信号进行切换时,信号经常出现停顿或重复现象。为了消除此现象,本文提出了采用音频包络比对技术,经过比对窗口设置、划分音频帧、相似度计算等步骤,实现音频
在我国传统建筑中,三合院由于具有其结构特点和地域特色而占有重要的地位。本文从阐述闽南传统三合院的文化传承入手,对闽南传统三合院文化转型进行了分析。
目的:研究过氧化氢低温等离子灭菌的临床应用效果。方法:检测分析152次过氧化氢等离子低温灭菌系统的灭菌情况,观察灭菌效果并分析循环取消原因。结果:152次灭菌中有143次循环完
目的:探讨PHS(polypropylene hernia system,PHS)术式治疗巨大腹股沟疝的可行性和优越性。方法 :自2007年7月至2011年7月,我院采用PHS术式治疗12例巨大腹股沟疝患者,入选病例
目的:探讨助产士介入产前门诊对产妇应对方式、社会支持及其分娩方式选择的影响。方法:86例正常产妇抽签随机分为观察组与对照组,各43例。两组均接受常规产前门诊,观察组另参加
为进一步实现淤泥固化填筑路基规范施工管理工作,本文从前期施工准备、施工工艺及施工工艺控制和质量控制等几方面做出了详细分析.基于淤泥固化过程中不同程度的含水量,提出
目的:通过对经皮椎间孔镜椎间盘切除术(PTED)与可动式显微内镜下椎间盘切除术(MMED)两种手术方式治疗腰椎间盘突出症的近期疗效指标与卫生经济学指标进行对比,探讨PTED术式的
消防安全“网格化”管理模式是解决目前消防监督管理模式问题的突破口。本文结合吉林省安图县地区实际情况,分析了消防安全“网格化”管理模式的定义、工作方式及其存在的重要