论文部分内容阅读
语音信号中除了包含语义信息,还包含丰富的说话人身份和情感状态等信息。语音转换属于个性化语音生成的一个重要研究方向,旨在保持源语音语义信息不变,改变说话人的个性特征,使其具有目标语音的个性特征。语音转换在受损语音修复、影视配音、伪装/反伪装等领域有着广阔的应用前景。根据训练过程对语料的要求,可将语音转换划分为平行文本和非平行文本条件下的语音转换,在实际应用中,预先获取大量平行训练文本,不仅耗时耗力,而且在跨语种和医疗辅助系统中往往无法获取到平行文本,严重制约了语音转换在实际场景中的应用。因此,非平行文本下的语音转换研究具有更大的应用前景和现实意义,同时具有很大的挑战性,成为当前语音转换领域的研究热点与难点。一个理想的语音转换模型,既要保证转换后的目标说话人个性特征的准确性,同时又要兼顾转换后合成语音的音质。当前的语音转换,尤其是非平行文本条件下的语音转换,仍存在转换后的语音音质不理想和说话人个性相似度不高两大问题。鉴于此,本文基于星型生成对抗网络StarGAN的语音转换模型进行研究,针对上述两方面的问题进行了相应的探讨与改进工作。首先,为了提升转换语音的说话人个性相似度,本文提出融合x-vector嵌入的StarAGN语音转换方法。由于StarAGN模型通过传统编码中的one-hot来表征说话人身份,对转换语音的个性相似度提升有限。因此,本文在StarGAN模型的生成器解码阶段,引入含有丰富说话人个性信息的x-vector特征,与ont-hot标签互为辅助,前者为语音的合成提供丰富的说话人信息,后者作为精准的标签能准确区分不同说话人,两者相辅相成有效提升转换后语音的个性相似度,进一步实现高质量的语音转换。充分的主客观实验结果表明,转换后的语音平均MCD值较基准模型降低5.41%,MOS值提升6.64%,ABX值提升5.12%,验证了本文提出的方法能够显著提升说话人个性相似度,同时有助于改善合成语音的音质。其次,为了进一步改善转换后合成语音音质,本文提出一种基于SE-ResNet StarGAN的语音转换模型,针对基准模型StarGAN中存在的网络退化等问题,在生成器的编码和解码网络之间构建SE-ResNet网络,利用其引入注意力思想和门控机制对各通道的依赖性进行建模,通过全局信息学习每个特征通道的权重,并对特征进行逐通道调整,有选择性地加强包含有用信息的特征并抑制无用特征,从而进一步增强模型的表征能力,更好地提升模型对语音频谱的语义学习能力以及语音频谱的合成能力。充分的主客观实验结果表明,相比于基准模型,本文提出的方法转换后的语音的平均MCD值降低7.82%,平均MOS提升11.89%,平均ABX提升3.35%,验证了本文提出的方法能够有效地改善语音音质,同时也有助于提高转换语音的个性相似度。进一步,本文还将x-vector融入到上述改进模型中,即将两个改进点结合在一起,提出了SE-R StarGAN-x的语音转换模型,充分的主客观实验结果表明,转换后的语音较基准模型平均MCD值降低9.53%,MOS值提升19.58%,ABX值提升8.66%,验证了本文提出的方法在语音音质和说话人个性相似度方面均有显著的提升,实现了非平行文本条件下高质量的多对多语音转换。