高自然度粤语语音合成关键技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:poloya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,语音技术越来越受到人们的关注.语音合成作为言语工程的一个重要组成部分,已经成为当前研究的热点.语音合成系统将输入的文本信息以语音的形式输出出来,使信息的传递更加方便、快捷.该文对粤语语音合成系统中若干关键技术进行了研究.文中首先介绍了语音合成的研究背景,简单回顾了语音合成和文语转换系统的发展历史.接着对几种常见的语音合成方法进行了分析,重点介绍了粤语语音学知识以及粤语语音合成研究的现状,指出了现阶段粤语语音合成的研究意义.韵律预测是语音合成系统中重要的组成部分,它直接关系到最终合成语音的自然度.该文总结了前人研究的一些成果,针对粤语语言特点,采用数据挖掘以及统计分析的方法建立了粤语韵律模型.在基频预测方面,使用从文本分析出的高层韵律描述信息,应用CART技术建立了粤语的基频预测模型.为提高基频预测精度,尝试了几种不同的改进方法.在时长预测方面,通过对音库中音节时长分布的统计,揭示了粤语时长的变化规律.在对各种时长模型预测效果进行比较后,选择Sop模型作为粤语合成系统使用的时长预测模型.语音合成系统中,单元挑选的目标是尽量减少由于单元拼接而造成的合成语音音质的损失.传统的基于代价函数的单元选择方法,需要很多专家知识作为指导,单元选取具有很强的主观性.该文尝试了一种基于语音客观参数评估的目标代价规则训练方法,使用数据驱动技术代替专家知识来生成代价规则取得了较好的效果.同时,使用一种插值平滑的多元基频连接概率模型,提高了连接代价计算的可靠性.为了提高语音合成的自然度和表现力,该文对粤语焦点的合成方法也进行了研究.通过采用一种新的实验语料设计方法,在焦点位置已知的情况下,分析了粤语焦点在韵律特征上的表现,并建立了焦点的韵律特征模型.在语音合成过程中,使用韵律调整算法调整合成语音,可以合成自然度较高得语音焦点.
其他文献
随着计算机网络技术的飞速发展,网络安全问题日益受到人们的重视,相关的网络安全技术的研究也越趋深入.传统的网络安全产品已不能满足现代P2DR动态系统安全模型的要求.人们迫
本课题来源于深圳市民中心屋顶网架结构健康智能监测系统项目。本文的主要内容是研究如何创建多媒体视景环境、大型屋架结构受力分析的有限元结果数据可视化的相关算法以及可
有线电视网络是信息化进程中一个重要的基础网络,HFC有线电视网有着极好的数据传输环境,具有高带宽、大容量和很高的用户拥有率,而被国际上公认为是通向广大用户多种信息业务的
随着计算机网络的广泛普及和人们对多媒体信息的需求不断提高,低码率图像压缩编码技术成为活跃的研究领域.MPEG-4作为新一代多媒体压缩标准,将众多多媒体应用集中于一个完整
社交网络服务(SNS)通过互联网支持人们之间的沟通。然而,用户的SNS朋友可以透露关于用户的敏感信息。这使得用户与不同群组的朋友分享信息不安全。此外,披露用户信息的朋友难以
近年来,机械故障智能诊断系统的研究成为机械故障诊断领域的研究热点,而系统的智能化程度和诊断准确度依赖于系统知识库中知识的数量与质量以及知识的组织、分类以及更进一步的知识共享和推理。本体作为一种能在语义和知识层次上描述知识模型的建模工具,可以提供对某一领域的概念以及相互关系的概念化描述,为知识共享奠定基础,本体支持对知识信息的区分,可以实现对领域知识的层次化表示,本体中包含的类公理以及约束公理可以用
数控技术在制造业中占有重要地位,而开放式数控系统是目前数控技术的发展方向.开放式数控系统对外提供的功能主要是运动控制和离散逻辑控制的功能,在开放式数控系统发展之初
解决并行算法中的数据分配问题,目前采用的主要方法是在各个计算结点上平均分配数据。如果并行系统是同构的,采用这种方法设计的算法具有很高的运行效率。但是在异构系统下,由于
多数据库系统屏蔽了不同数据库在物理上和逻辑上的差异,使用户能实现对异种数据库的透明访问.我们提出和研究的多数据库中间件实际上是构造"DBMS Over DBMS",是多数据库的一
智能规划是人工智能研究领域近年来发展起来的一个热门分支,由于其广泛的实用性,受到研究者的高度重视。尤其是具有不完全信息和不确定信息的规划问题已经成为智能规划中的研究