论文部分内容阅读
现阶段大多研究学者关注和研究的方言语音合成,都是从文字到语音的合成(Text-To-Speech,TTS)。文本输入后经过“文本规范化、文本切分、语法分析”等语言学的处理,再合成语音。中国地域辽阔、民族众多、方言语言丰富,而我国存在一些方言,没有文字表示。基于此,本文以无文字的东乡方言为研究对象,分析了东乡方言的语言学特点和语音学特点,设计了一套东乡方言的机读音标方案,建立了一个东乡方言的语料库,并用标音方案标注语料;在此基础上,利用基于隐markov模型(Hidden Markov Model,HMM)的统计参数语音合成方法,和基于深度神经网络(Deep Neural Networks,DNN)的语音合成方法,实现了东乡方言的语音生成。本文的主要工作和创新如下:1.建立了一个东乡方言的语料库。通过分析东乡方言的元音、辅音、词语、句型的语言学特点,和基频、声调等实验语音学的特点,建立了一个共800句的东乡方言语料库。其中包括400句的东乡方言公交车报站场景语句和400句地道东乡方言语句,基本包括了东乡方言的元音、辅音、声调以及常用词汇的发音特点。请东乡话地道的东乡族大学生在专业录音棚中录制,保存为Microsoft WAV格式(单通道、16bit、16kHz采样频率)。2.设计了一套东乡方言机读音标方案。由于东乡方言没有文字,通过参照汉语普通话的机读音标,设计了一套东乡方言的机读标音方案SAMPA-DX(Speech Assessment Methods Phonetic Alphabet for Dong Xiang)。并用此标音方案,逐句标注语音语料。3.实现了无文字的东乡方言的语音生成。先对标注好的语料结合语境分析,分别进行HMM训练和DNN模型训练,分别得到每个合成基元的HMM和DNN模型。然后给定一个公交车报站场景,当输入公交站名以及公交车序号,经过语境分析,生成东乡方言报站语句的上下文相关标注,进而生成东乡方言公交报站语音。实验结果表明,本方法可以实现无文本语言的语音生成,生成的东乡方言公交报站语音有着较高的语音自然度、相似度和音质。