基于统计声学建模的语音合成技术研究

被引量 : 0次 | 上传用户:frkzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十几年来,随着针对语音信号的统计建模方法的日益成熟以及参数合成器性能的不断提升,统计参数语音合成(Statistical Parametric Speech Synthesis)思想被提出,并得到了越来越多研究者的关注。其中,以基于隐马尔可夫模型(Hidden Markov Model,HMM)的参数语音合成方法为代表,该方法已逐步发展成为和基于语料库的单元挑选与波形拼接合成方法相并列的一种主流语音合成方法。相比传统的单元挑选与波形拼接合成方法,基于HMM的参数语音合成方法具有合成语音流畅度高、鲁棒性好,系统构建速度快、自动化程度高,系统尺寸小、灵活度高等优点。本文以统计声学模型在语音合成中的应用为研究重点,在原有基于HMM的参数合成方法之外,提出了两种新的基于统计声学建模的语音合成方法。第一,基于HMM的单元挑选与波形拼接合成:我们将HMM参数语音合成中使用的声学参数建模思想,与传统的单元挑选与波形拼接合成方法相结合,使用概率准则指导最优单元搜索,通过拼接波形生成最终语音,以克服参数合成方法在生成语音音质上的不足,提高合成语音的自然度;第二,融合声学参数与发音器官参数(Articulatory Feature)的建模与合成:我们在声学参数之外,引入和语音产生机理更加紧密相关的发音器官参数,通过对原有的HMM模型结构进行改进,实现两种参数的联合建模与生成,从而提高合成时声学参数预测的精确度和灵活性。整篇文章的安排如下:第1章是绪论,将回顾语音合成的发展历史,并对常见的几种语音合成方法进行简要的介绍。第2章将具体介绍基于HMM的参数语音合成方法,包括HMM的基本原理、系统框架、关键技术点等,并通过对此方法特点的分析,阐明我们进行新的语音合成方法研究的动机与出发点。第3章将重点介绍基于HMM的单元挑选与波形拼接语音合成算法。首先我们提出了使用HMM进行单元挑选的两种不同的实现形式,一种以帧为拼接单元,基于最大似然准则实现单元搜索,另一种使用音素和帧的两级拼接单元,结合似然值准则和Kullback-Leibler距离(Kullback-Leibler Divergence,KLD)进行单元选择;然后,我们归纳出了基于HMM的单元挑选合成的统一算法框架,并通过在中文和英文合成系统上的测试证明了此算法的有效性;最后,我们提出了最小单元挑选错误(Minimum Unit Selection Error,MUSE)准则,用以替代原有HMM训练中使用的最大似然准则,实现了合成系统的全自动构建,并进一步提高了合成语音的自然度。第4章将介绍融合发音器官参数与声学参数的统计建模与合成。这里的“发音器官参数”指的是对发音过程中说话者舌、唇、下颚等发音器官的位置以及运动情况的定量描述。在阐明了引入发音器官参数的原因以及对原有系统框架进行了简单回顾后,我们提出了对声学参数和发音器官参数进行联合建模与参数生成的总体思路,并且从模型聚类策略、状态的同步性假设以及特征之间的独立性假设三个方面,讨论了几种可能的模型结构;然后,通过一系列的客观和主观评测,证明了这种结合发音器官参数的系统构建方法在提高声学参数预测的精确度和灵活性方面的有效性。第5章对全文进行了总结。
其他文献
隐喻不仅仅是一种语言现象,更重要的,它是一种思维现象。这是美国当代语言学家Lakoff等人在谈到“什么是隐喻”这一问题时作出的精辟概括。写作中人们常常有意无意地使用隐喻
青稞具有很高的营养价值,符合人们的饮食结构,是谷类作物中的佳品,但青稞的加工利用非常有限。利用挤压技术所具有的物料利用率高、原料适应性广、营养损失小、适用产品品种
目的:探究以症状为中心词的思维导图教学法在消化内科临床教学中的应用价值。方法将消化内科实习学生随机分成两组,对照组沿袭传统的授课方法,实验组引入以症状为中心词的思维导
在纷繁复杂的全球环境中,决策者面临的决策问题急速增长并且大多没有前例可循,需要考虑的内外因素变量越来越多,决策目标的选择呈现出多维性、层次性和综合性的趋势,这给决策
在中国书法史和中国绘画史上,书画同源的问题一直被艺术的实践者和理论家不断探讨而成为一个不断发展和完善的重要理论观点。尤其是宋元以后,文人画家由于对于笔墨的重视,又
在城市化进程日益加快的推动下,传统的交通工具已经很难满足人们的需要,尤其是以汽车为首的交通工具,不仅会影响城市交通效率,而且会对城市环境造成严重的污染。在此背景下,
南京市栖霞区龙潭街道地处东部边城,下辖18个村、6个社区,6.7万人。统计数据显示,60周岁以上老人约1.65万人,包括留守老人近4000人,其中空巢、独居、“三无”老人、五保老人3
本论文叙述了考试方式的历史、现状以及ASP语言和SQL Server2000数据库管理系统的概况。重点介绍了无纸化网络考试系统的实现过程:包括系统分析、系统调查、数据流程分析、功
汽车车身设备数量日益增多,功能日趋复杂,车载总线网络使用范围逐步扩大。本文主要是对以嵌入式技术为基础的支持CAN(控制器局域网,Controller Area Network)/LIN(局部互联网
随着冷战的结束,全球化进程不断加快,各国相互依存程度不断加深。传统国际关系视野下的国家权力也在发生嬗变:对国家实力的界定已不能再单纯地强调军事力量和征服,一国的文化