论文部分内容阅读
近十几年来,随着针对语音信号的统计建模方法的日益成熟以及参数合成器性能的不断提升,统计参数语音合成(Statistical Parametric Speech Synthesis)思想被提出,并得到了越来越多研究者的关注。其中,以基于隐马尔可夫模型(Hidden Markov Model,HMM)的参数语音合成方法为代表,该方法已逐步发展成为和基于语料库的单元挑选与波形拼接合成方法相并列的一种主流语音合成方法。相比传统的单元挑选与波形拼接合成方法,基于HMM的参数语音合成方法具有合成语音流畅度高、鲁棒性好,系统构建速度快、自动化程度高,系统尺寸小、灵活度高等优点。本文以统计声学模型在语音合成中的应用为研究重点,在原有基于HMM的参数合成方法之外,提出了两种新的基于统计声学建模的语音合成方法。第一,基于HMM的单元挑选与波形拼接合成:我们将HMM参数语音合成中使用的声学参数建模思想,与传统的单元挑选与波形拼接合成方法相结合,使用概率准则指导最优单元搜索,通过拼接波形生成最终语音,以克服参数合成方法在生成语音音质上的不足,提高合成语音的自然度;第二,融合声学参数与发音器官参数(Articulatory Feature)的建模与合成:我们在声学参数之外,引入和语音产生机理更加紧密相关的发音器官参数,通过对原有的HMM模型结构进行改进,实现两种参数的联合建模与生成,从而提高合成时声学参数预测的精确度和灵活性。整篇文章的安排如下:第1章是绪论,将回顾语音合成的发展历史,并对常见的几种语音合成方法进行简要的介绍。第2章将具体介绍基于HMM的参数语音合成方法,包括HMM的基本原理、系统框架、关键技术点等,并通过对此方法特点的分析,阐明我们进行新的语音合成方法研究的动机与出发点。第3章将重点介绍基于HMM的单元挑选与波形拼接语音合成算法。首先我们提出了使用HMM进行单元挑选的两种不同的实现形式,一种以帧为拼接单元,基于最大似然准则实现单元搜索,另一种使用音素和帧的两级拼接单元,结合似然值准则和Kullback-Leibler距离(Kullback-Leibler Divergence,KLD)进行单元选择;然后,我们归纳出了基于HMM的单元挑选合成的统一算法框架,并通过在中文和英文合成系统上的测试证明了此算法的有效性;最后,我们提出了最小单元挑选错误(Minimum Unit Selection Error,MUSE)准则,用以替代原有HMM训练中使用的最大似然准则,实现了合成系统的全自动构建,并进一步提高了合成语音的自然度。第4章将介绍融合发音器官参数与声学参数的统计建模与合成。这里的“发音器官参数”指的是对发音过程中说话者舌、唇、下颚等发音器官的位置以及运动情况的定量描述。在阐明了引入发音器官参数的原因以及对原有系统框架进行了简单回顾后,我们提出了对声学参数和发音器官参数进行联合建模与参数生成的总体思路,并且从模型聚类策略、状态的同步性假设以及特征之间的独立性假设三个方面,讨论了几种可能的模型结构;然后,通过一系列的客观和主观评测,证明了这种结合发音器官参数的系统构建方法在提高声学参数预测的精确度和灵活性方面的有效性。第5章对全文进行了总结。