【摘 要】
:
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,
【机 构】
:
南京邮电大学 通信与信息工程学院,南京 210003;金陵科技学院 软件工程学院,南京 211169
论文部分内容阅读
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换.辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度.通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量.实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换.
其他文献
城市生活圈对改善人居环境有着重要的意义.当前国内关于城市生活圈的研究与实践仍处于探索阶段.以淮安市淮海街道15分钟生活圈规划为研究对象,基于步行路径针对公共设施布局
目的探讨肩袖损伤合并肱二头肌长头腱(long head of bicep tendon,LHBT)病变的危险因素及其对肩关节功能的影响。方法2016年1月至2020年1月接受手术治疗的肩袖损伤患者680例,男260例,女420例;年龄(56.1±8.7)岁(范围27~74岁)。左侧250例、右侧430例,主力侧436例,术前存在明确外伤者274例。Post肩袖损伤分型:部分损伤133例、中小全层损
由于电力系统的安全问题往往会造成严重的经济或社会影响,隐患检测已成为电力系统不可或缺的重要环节。随着人工智能领域的发展,基于深度学习的智能化电力系统隐患检测技术逐渐得到越来越多的关注。但目前的方法大多只是单一地考虑图像的全局特征或局部特征,无法全面彻底表征图像,进而难以捕捉电力领域尤其室外复杂背景下的隐患检测。为此,基于深度学习技术,提出了一种面向电力系统的多粒度隐患检测方法MGNet。通过引入图