基于隐马尔可夫模型的高表现力语音合成技术的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:rrtaobao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着语音技术的飞速发展,语音合成技术越来越趋于成熟,合成的语音音质和自然度方面都有了比较明显的提高。在合成领域,具有高表现力的情感合成越来越为研究者所重视。如何让机器合成出的语音更具有“人情味”,成为语音合成界关注的焦点。   同时,如何在不扩大训练数据库,不提高合成技术复杂度的情况下,通过对语音韵律特征的更好的建模,实现高自然度高表现力的语音合成,是对我们研究者提出的挑战。为此,本文对基于隐马尔可夫模型HMM(Hidden Markov Model)的高表现力的语音合成技术进行了系统的介绍,并为改善合成语音的表现力开展了深入的研究。整篇文章的结构安排如下:    论文第一章概括的论述了本文的研究背景。首先介绍了近几十年来语音合成技术的发展情况,然后简要分析了现有的几种常见的语音合成方法,与语音合成技术相关的概念与方法及高表现力语音合成技术的提出等。   论文第二章主要介绍了目前最为常用的基于HMM模型的可训练语音合成技术(Trainable TTS)的基本框架。包括Trainable TTS合成系统的流程,关键技术点,韵律参数的介绍及其相关的情感合成的知识,为本文在Trainable TTS表现力提升方面的工作做基础和铺垫。    论文第三章主要讨论从影响韵律的重要参数——基频特征提取方面来改善基线系统。针对现在基线合成系统存在的基频预测不准确的问题,我们考虑包含更多信息的长时单元——音节单元,理论上,更长单元的基频特征更能反映基频的走势特征。实验验证了在悲伤情感库上可以取得更好的效果。   论文第四章从基频建模方法这一角度来改善现有的基线合成系统的效果。针对现在合成系统存在的基频预测不准确的缺陷,我们认为现在基频与频谱同步建模方法存在问题。我们提出一种半异步建模的方法,即基频和频谱参数在一个音素内部对应不同的状态序列,最后通过实验总结了异步建模方法的性能表现。   论文第五章是从另一个影响韵律重要参数——时长角度来改善现有基线系统。主要方法是:结合音素单元的时长满方差建模。通过音素与状态加权的满方差模型对时长特征的预测,达到在预测总时长的情况下建立时长各个状态单元内部联系,从而更好的对时长进行预测的目的。   论文第六章简要介绍了作者参加Blizzard Challenge语音合成比赛的情况。   
其他文献
光码分多址技术(OCDMA)是将码分多址(CDMA)技术与大容量的光纤通信技术相结合的一种通信方式。光码分多址技术能够充分的利用光纤中的巨大带宽,具有支持用户随机接入,支持多速
数字图像复原技术是当前数字图像处理领域的重要研究课题之一。在图像的形成、传输及记录显示过程中,由于实际成像系统的不完善、传输介质的影响、景物与成像系统的相对运动、
无线通信是当今最活跃的科研领域之一,为达到现代通信的要求,提出了第四代移动通信系统。在第四代通信的关键技术中,把MIMO技术和OFDM技术结合起来形成了MIMO-OFDM系统。该系
典型的容迟网络(DTN)场景常表现出大延迟、易中断、高误码率等特点,其中高效节能的路由算法更是一个亟待解决的问题。现有路由算法可分为基于复制策略和基于转发策略两大类,
太阳光是一种自然光源,太阳光在大气层中传输,会受到大气中的氧气、氮气等分子,以及气溶胶粒子的散射作用,散射会改变太阳光的偏振特性。由于大气的散射作用,天空中会形成特
在卫星通信中,由于卫星信道是典型的非线性信道,经常使用等能量符号的调制方式以便非线性放大器能以最小的功率回退工作在线性区内。本文将一种新型调制方式多进制超相移键控
传输层是网络体系中非常重要的一层,它负责数据的端到端传输。TCP(Transmission Control Protocol,传输控制协议)和SCTP(Stream Control Transmission Protocol,流传输控制协
随着移动通信技术的快速发展,各式各样的新兴业务不断涌现,这对于通信网络的性能提出了越来越高的要求,比如被视为未来信息技术变革核心的无线云计算业务,其对网络性能的需求
移动Ad Hoc网络是由地位相同的无线移动节点组成的通信网络,它没有固定的基础设施,每个节点都可以作为主机和路由器。传统的Ad Hoc网络应用以数据传输为主,随着语音、视频等
超宽带(UWB)通信对比于传统通信方式,具备众多的优势,是未来通信行业发展的大方向,也是当前研究的热点课题。为保证UWB系统的整体性能,有效地信道估计必不可少。但是,UWB系统