论文部分内容阅读
人工智能发展态势迅猛,深度学习应用前景广阔。目前的语音合成(Speech Synthesis)发展更加成熟,在合成高质量、高可懂度以及高自然度语音的基础上,不再拘泥于使用单一的参数化方法,而是更加倾向使用深度学习的方法。主流语言如汉语、英语等借助易获取庞大的数据资源等优势,利用神经网络甚至深度学习的方法,使得主流语言的合成语音更加自然,合成技术被应用至各个领域。但是少数民族语言、地方特色语言以及低资源语言的系统性的语音合成研究相对较少,用于少数民族语言语音合成的方法较为稀缺。彝族作为中国这个多民族国家的第六大少数民族,有着自己独特的人文政治和风俗文化,彝语具有重要的研究价值。本文以少数民族语言语音合成为研究目标,以彝语作为研究对象,对彝语语音合成用的文本分析进行了研究。在此基础上,利用深度神经网络(Deep Neural Network,DNN)以及端到端(End-to-end,E2E)的方法实现了彝语语音合成,并对E2E的方法提出了改进,有效地减少了合成高品质语音时所需要的语料数量。论文的主要工作和创新如下:1.设计并建立了一个彝语的语料库,收集、整理、建立了用于彝语文本分析的字音转换字典以及分词词典。在彝语声母、韵母以及声调等语言学特点的基础上实现了彝语的文本分析,设计了上下文相关标注的格式,并建立了用于彝语语音合成的问题集。2.实现了基于DNN模型的彝语语音合成。在文本分析的基础上,配合彝语的问题集,使用所得上下文相关特征作为模型输入。合成中采用WORLD声码器提取声学参数,并对模型预测的声学参数进行波形的还原。研究中进行了对比实验,对各个实验的结果进行主观和客观评测。客观评测的梅尔倒谱失真低至5.418 dB;彝语母语评测人的主观评测得分为3.93,原始语句得分为4.58。3.提出了一种改进的E2E模型的彝语语音合成方法。在基本的E2E模型中改变编码器网络结构,融入文本分析模块,利用问题集等专家知识优化模型,采用格里芬·林算法还原图谱数据得到语音。对基线模型及改进模型进行了实验,并对实验结果进行了主观和客观评测。改进模型的梅尔倒谱失真低至4.426 dB;彝语母语评测人的主观评测得分为4.19,原始语音得分为4.47。改进模型能在保证语音合成质量基本不变的情况下,降低一半的使用语料。