论文部分内容阅读
语音转换(Voice Conversion,VC)是一种用于修改源说话人的语音信息以匹配目标说话人的语音信息的技术,使得转换后的语音听起来像是目标说话人所说,同时保持语义信息不变。当前,主流的VC技术大多数都是在平行语料条件下实现的,但实际中,对低资源的藏语来说,平行语料的获取代价很大,声学特征的对齐也容易出现问题。因此,本文以研究藏语语音转换为目的,重点分别研究了平行、非平行语料条件下的藏语VC,其主要工作如下:1.梳理语音转换的基本流程,使用WORLD声码器进行语音声学参数的提取及语音合成工作。2.研究了面向VC的藏语卫藏方言语料库的设计问题,建立了藏语VC的基础。文本语料需覆盖藏语卫藏方言音素的各种组合情况,力求使不同音素的出现频次尽可能均衡,以避免数据稀疏问题。得到文本语料后,在录音棚录制对应的音频语料,并进行切分标注。3.在使用平行语料条件下将深度神经网络(Deep Neural Network,DNN)、生成对抗网络(Generative Adversarial Networks,GAN)引入到藏语语音频谱参数的转换中,通过大量实验,结果表明DNN、GAN网络都能实现藏语VC,且转换效果要优于基于高斯混合模型(Gaussian Mixture Model,GMM)的转换。4.受藏语平行语料的限制,本文又研究了更加灵活通用的非平行语料条件下的藏语VC。对上述GAN网络做出改进,提出了基于CycleGAN、StarGAN网络的藏语VC方法,通过大量实验,结果表明基于CycleGAN网络的藏语VC效果以接近在平行语料条件下的基于GMM的转换,且CycleGAN方法实现了“一对一”转换的双向转换,而GMM方法是“一对一”的单向转换;基于StarGAN网络的藏语VC效果差于在平行语料条件下的基于GMM的转换,但是StarGAN方法实现了“多对多”的转换,这种转换方法更加灵活、高效。