基于深度学习的彝语语音合成的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:asdfghjkh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能发展态势迅猛,深度学习应用前景广阔。目前的语音合成(Speech Synthesis)发展更加成熟,在合成高质量、高可懂度以及高自然度语音的基础上,不再拘泥于使用单一的参数化方法,而是更加倾向使用深度学习的方法。主流语言如汉语、英语等借助易获取庞大的数据资源等优势,利用神经网络甚至深度学习的方法,使得主流语言的合成语音更加自然,合成技术被应用至各个领域。但是少数民族语言、地方特色语言以及低资源语言的系统性的语音合成研究相对较少,用于少数民族语言语音合成的方法较为稀缺。彝族作为中国这个多民族国家的第六大少数民族,有着自己独特的人文政治和风俗文化,彝语具有重要的研究价值。本文以少数民族语言语音合成为研究目标,以彝语作为研究对象,对彝语语音合成用的文本分析进行了研究。在此基础上,利用深度神经网络(Deep Neural Network,DNN)以及端到端(End-to-end,E2E)的方法实现了彝语语音合成,并对E2E的方法提出了改进,有效地减少了合成高品质语音时所需要的语料数量。论文的主要工作和创新如下:1.设计并建立了一个彝语的语料库,收集、整理、建立了用于彝语文本分析的字音转换字典以及分词词典。在彝语声母、韵母以及声调等语言学特点的基础上实现了彝语的文本分析,设计了上下文相关标注的格式,并建立了用于彝语语音合成的问题集。2.实现了基于DNN模型的彝语语音合成。在文本分析的基础上,配合彝语的问题集,使用所得上下文相关特征作为模型输入。合成中采用WORLD声码器提取声学参数,并对模型预测的声学参数进行波形的还原。研究中进行了对比实验,对各个实验的结果进行主观和客观评测。客观评测的梅尔倒谱失真低至5.418 dB;彝语母语评测人的主观评测得分为3.93,原始语句得分为4.58。3.提出了一种改进的E2E模型的彝语语音合成方法。在基本的E2E模型中改变编码器网络结构,融入文本分析模块,利用问题集等专家知识优化模型,采用格里芬·林算法还原图谱数据得到语音。对基线模型及改进模型进行了实验,并对实验结果进行了主观和客观评测。改进模型的梅尔倒谱失真低至4.426 dB;彝语母语评测人的主观评测得分为4.19,原始语音得分为4.47。改进模型能在保证语音合成质量基本不变的情况下,降低一半的使用语料。
其他文献
环形锻件作为各行业中重大机械装备的重要组成部分,是航空发动机中重要的承力单元,同时作为一种高精度零件,在单台份的航空发动机锻件中占比很重。为了保证加工质量,通常采用
样品前处理是复杂生物样品分析过程中不可或缺的一部分。而吸附剂的选择性会直接影响到分析方法的灵敏度与准确性。本文分别采用具有高选择性的金属掺杂和硼亲和两种吸附剂,
SOST基因(Sclerostin,SOST)编码硬化蛋白,是由骨细胞特异性分泌的含“胱氨酸结”的糖蛋白,它通过结合到LRP5/6复合体,抑制经典Wnt/β-catenin信号,负调控骨形成。硬化蛋白单
OsMY1(GenBank DQ641916)基因是本实验室前期通过酵母双杂交筛选,从水稻雌雄蕊形成期幼穗cDNA库中分离得到的功能未知基因。序列分析显示,该基因cDNA编码区的5’端不完整。本
近年来,超分子化学已经受到了普遍的关注。分子间通过分子识别、分子自组装形成结构各异、形态可控的组装体,并具有特异性能,广泛的应用于生命科学生物体中。本文主要详述一
藏族的不同方言在发音上的巨大差异,造成了不同方言区的人们在面对面交流时存在着巨大的困难。近年来,汉语和英语的语音转换技术取得了很大进步,但是目前只有使用五度字调模
与传统窄禁带半导体硅(Si)相比,宽禁带氮化镓(GaN)材料具有优良的物理特性,如强击穿电场、高电子迁移率、高电子饱和速度和高热导率等,非常适合制备在高压、高频和高温下工作
当前,云服务器是大数据时代数据处理和数据存储的强大平台。云服务器为大数据提供存储功能引发了人们对云端数据安全和隐私保护问题的广泛关注。密码学是保障数据安全的一项
Sox基因家族是一类与哺乳动物睾丸决定基因相关的转录因子,广泛存在于整个生物界中,参与生物的多个发育过程。本文中所研究的SoxD亚族属于Sox基因家族,已经被证实参与小鼠和
人脸识别因为其“非接触性”从众多生物特征的识别技术中脱颖而出并迅猛发展,从最初的公共安全领域渗透到如今生活的方方面面。但是,如今人脸识别的关键技术都是依靠庞大的数