非平行文本条件下基于文本编码器、VAE和ACGAN的多对多语音转换研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yyw953
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换技术是一种将源语音中的说话人个性信息转换为目标说话人个性信息,同时保留源语义信息的技术。本文针对目前语音转换研究领域存在的转换后语音音质差、说话人相似度不高的问题进行了相应的探讨与改进,通过引入句嵌入和文本编码器对VAWGAN(变分自编码器和生成对抗网络)语音转换模型中潜在变量的过度正则化问题进行了改进,并通过引入辅助分类器生成对抗网络改善了生成对抗网络的结构。本文的第一个改进点是在VAWGAN系统的基础上,利用文本编码器训练句嵌入,将句嵌入约束添加到变分自编码器和生成对抗网络模型中,利用句嵌入中包含的语义信息,进一步提升了转换后语音的语音自然度和个性相似度。主观和客观评价表明,本文提出的方法比基于VAWGAN的基准方法转换后语音平均MCD(Mel-Cepstral Distortion,梅尔倒谱失真)值降低了4.39%,平均MOS(Mean Opinion Score,平均意见分)值提升了4.46%,平均ABX值提升了6.70%,说明本文提出的方法在提升说话人个性相似度的同时也提升了语音音质。本文的第二个改进点是利用辅助分类器生成对抗网络替代了VAWGAN模型中的Wasserstein生成对抗网络。辅助分类器生成对抗网络将特征样本的类别标签作为辅助信息,其鉴别器不仅能预测样本真假,还能预测样本所属的类别,提高了生成对抗网络的生成效果。主观和客观评价表明,辅助分类器生成对抗网络在语音转换领域有较好的应用效果,本文提出的方法比基于VAWGAN的方法转换后的语音平均MCD值降低了5.98%,平均MOS值提升了6.85%,平均ABX值提升了8.50%,说明本文提出的方法在提升语音音质的同时也提升了说话人个性相似度。
其他文献
2008年美国金融危机已过去十年之余,但危机给全球带来的影响却是深远的,这条漫漫复苏之路催生了逆全球化、民粹主义、贸易保护主义及地缘政治等问题。在全球化背景下,没有国家可以独善其身,深入了解2008年金融危机形成的因素和影响,有利于我国应对全球经济衰退所带来的后续冲击。基于此背景,本次翻译实践以美国金融领域专家本·伯南克、蒂莫西·盖特纳和亨利·保尔森合著的《灭火——金融危机及其教训》为翻译实践文本
实践教学是高职教育的重要教学环节,是学生获得职业素质和职业能力的重要途径。本文以渤海船舶职业学院为例,总结电子商务专业以往的实践教学环节存在的问题,提出了“2+0.5+0.5
研究背景和目的特纳综合征(Turner syndrome,TS)是一组以第二性征不发育或发育不全并发多种躯体畸形如身材矮小、骨骼畸形等为主要表现的临床综合征,是由于1条X染色体完全或
近些年来,市场经济的发展促进了城市化进程的不断加快,在城市规模不断扩大的同时,城市自身的功能在社会和经济发展中的作用也显得日益重要,并且已经成为社会和人文发展的基础领域。然而,随着城市规模的不断增加,其所面临的能源与资源的压力越来越大,新的城市发展模式已经成为一种必然的趋势。因此,智慧城市理念已经成为现代城市发展的根本指导思想。本文主要针对智慧城市关键技术以及其实现路径等问题进行简单的分析。
通过阐述高校素质教育课程体系的内涵,厘清高校素质教育课程的六个方面之间的关系,探讨以理念感化为主和以能力训练为主的两大部分素质教育课程对国防教育的促进作用。
随着中国经济的不断发展,促使当代的消费者更加追求方便、快捷、舒适的服务。在新的顾客需求的催生下,便利店逐渐走进中国消费者的生活中。目前,便利店已经成为零售行业中一种比较成熟的经营模式,主要以连锁经营方式向全世界的消费者提供规模化的、标准化的便利服务。在近20年,中国的便利店行业实现了飞速发展,包括国内自有的便利店品牌以及国外知名便利店品牌。目前零售行业正面临着激烈的竞争,各个便利店品牌都希望通过提
随着我国改革开放的不断深入和社会主义现代化建设的进一步推进,经济稳定持续发展,城市化进程加快,但与此同时带来的环境问题也日趋严重。在当今社会发展中,公众意识水平的高
中国旅游业经过改革开放后三十几年的蓬勃发展,逐渐进入稳定发展阶段。经过前期大力发展入境旅游、鼓励发展国内旅游的时期之后,近年来中国的出境旅游发展势头尤其迅猛。欧洲
薪金制度如何发放一直是我国乃至世界上各个企业所考虑的问题。薪金制度是一把有效的利器。对于优秀的员工来说起到激励的作用并对他人有一定的引导作用,能调动员工的积极性。
目的:探讨胰十二指肠同源盒-1(PDX-1)联合利拉鲁肽诱导大鼠骨髓间充质干细胞(BMSCs)分化为胰岛样细胞(IPCs)的效果。方法:构建真核表达载体p EGFP-pc DNA3.1(+)-PDX-1,脂质体介导其转染