基于深度学习的藏语语音转换的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:zhangxyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换(Voice Conversion,VC)是一种用于修改源说话人的语音信息以匹配目标说话人的语音信息的技术,使得转换后的语音听起来像是目标说话人所说,同时保持语义信息不变。当前,主流的VC技术大多数都是在平行语料条件下实现的,但实际中,对低资源的藏语来说,平行语料的获取代价很大,声学特征的对齐也容易出现问题。因此,本文以研究藏语语音转换为目的,重点分别研究了平行、非平行语料条件下的藏语VC,其主要工作如下:1.梳理语音转换的基本流程,使用WORLD声码器进行语音声学参数的提取及语音合成工作。2.研究了面向VC的藏语卫藏方言语料库的设计问题,建立了藏语VC的基础。文本语料需覆盖藏语卫藏方言音素的各种组合情况,力求使不同音素的出现频次尽可能均衡,以避免数据稀疏问题。得到文本语料后,在录音棚录制对应的音频语料,并进行切分标注。3.在使用平行语料条件下将深度神经网络(Deep Neural Network,DNN)、生成对抗网络(Generative Adversarial Networks,GAN)引入到藏语语音频谱参数的转换中,通过大量实验,结果表明DNN、GAN网络都能实现藏语VC,且转换效果要优于基于高斯混合模型(Gaussian Mixture Model,GMM)的转换。4.受藏语平行语料的限制,本文又研究了更加灵活通用的非平行语料条件下的藏语VC。对上述GAN网络做出改进,提出了基于CycleGAN、StarGAN网络的藏语VC方法,通过大量实验,结果表明基于CycleGAN网络的藏语VC效果以接近在平行语料条件下的基于GMM的转换,且CycleGAN方法实现了“一对一”转换的双向转换,而GMM方法是“一对一”的单向转换;基于StarGAN网络的藏语VC效果差于在平行语料条件下的基于GMM的转换,但是StarGAN方法实现了“多对多”的转换,这种转换方法更加灵活、高效。
其他文献
用TEM,FTIR分析研究了烷基化纳米Si02/MMA乳液聚合产物的结构。结果表明,乳液聚合产物的粒子基本呈球形,由核壳组成、中心为Si02核、外围为PMMA壳、核壳之间存在化学键。并在适量
对氯苯酚是一种毒性强、环境危害大的难降解有机物,处理对氯苯酚废水时可采用高级氧化技术。放电等离子体就是一种新兴的高级氧化技术,但利用这项技术处理废水时,还存在着放电电极的保护,活性物质的高效生成和有效利用等问题。针对这些问题,本文提出了在介质上构造微孔结构,利用微孔促进介质阻挡放电。并自制“微孔对介质阻挡放电的促进作用研究装置”,“微孔促进介质阻挡放电水处理装置”以及“放电等离子体联合微气泡水处理
为了解决煤矿高压配电箱现有的零序电流方向保护不能适应不同小接地电流系统,给生产、使用带来不便的问题,根据各小接地电流系统中漏电故障支路零序电流分量与零序电压的相位
于右任(1879—1964)既是晚清民国重要诗家,也是此期诗坛风云人物,享有很高诗学声望。把于右任放在晚清民国诗坛中来考察,可以加强于右任诗人身份的体认,使之立体化、鲜活化。
基于模糊神经网络的理论方法,以点火提前角、发动机的功率和转速等特征参数作为二次变量,提出了点火提前角时间差软测量模型。仿真结果表明,软测量模型具有非常好的映射性能
近年来,随着海绵城市建设逐步推进,城市雨水资源有效利用率得到一定程度提升。为探究低影响开发对地下水水位水质的影响,本文以单项低影响开发设施渗井和陕西省沣西新城海绵
本文通过对超浅埋偏压红砂岩隧道施工技术的总结,阐述如何在施工过程中及时发现问题并采取的合理解决措施以及施工过程的主要把控环节。
小组合作管理是通过小组形式让学生全员参与到班级事务管理中的一种新型班级管理模式,在这一模式下进行班级管理,不仅能够突出学生的主体作用,加强学生间的沟通交流,提高学生自我