论文部分内容阅读
语音合成系统在人工智能、语音信号处理和人机交互中的广泛使用使其成为了很多实验室和公司的研究热点。而随着语音合成效果的逐步改善,用户对语音合成系统提出了更多的要求,尤其是对合成语音的多样性的需求,其中方言的语音合成不仅可以在多媒体中有多方面应用,而且还可以增加系统合成语音的多样性从而受到用户的欢迎。为此,本论文在基于HMM的可训练的语音合成方面,对天津方言进行了合成并对其合成原理,过程和结果进行了深入而系统的研究。本论文的具体研究内容如下。首先,本文通过语音合成的方法进行分析并对语音合成的历史进行了简单回顾,包括基于发音器官的参数合成法,声源-滤波器语音合成法,拼接合成法以及统计声学的语音合成方法并对每种方法的优缺点进行了分析。文章之后还对方言合成意义进行了简单概括,为后文的方言方案提供了出发点。文章之后重点对基于隐马尔科夫模型的参数语音合成的架构进行了具体分析,并重点讨论了HMM在语音建模中的应用。紧接着,本文针对于天津方言特点进行了分析,并结合HTS系统,讨论了系统修改的模块和研究重点。针对于天津语音与普通话语音主要区别在声调上的特点,本文设计了两套方案,针对于规则的方法,文章提出了直接使用天津字典,将天津方言当作发音不规则的普通话处理和规则映射的方法这三套方案来合成语音。而针对于第三套方案,文章又根据单字声调模型的不同而设计出了两套方案,并通过实验寻找出了基于规则的最佳方案。文章之后还针对于规则方法的局限性,利用HTS自身来完善模型精度以提高声调准确度。先后使用双边问题集的方式,提取更多上下文信息方式,使用声调移动窗口的方式来合成方言。并且还通过四川方言的合成和不同语料库的合成验证了不同方言,不同语料库,提取不同文本信息对合成语音的影响。在展望中,本文还对四川方言的合成,上海方言的合成提出了展望,为下一步工作提供了依据。