融合i-vector嵌入和密集连接星型生成对抗网络的语音转换研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:chinetman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是一个人发声时产生的一种包含说话人个性特征、语义信息以及情感信息的信号。语音转换的含义是将源说话人的声音进行转换,使其听起来具有目标说话人的个性特征,并且转换前后具有相同的语义信息。语音转换可分为平行文本的语音转换和非平行文本的语音转换,平行文本是指源说话人和目标说话人的发音的语音时长、说话内容、情感韵律等保持一致。然而,在实际任务场景中,收集平行语音十分耗时耗力,并且在跨语种转换,医疗辅助领域根本无法获得。此外,即使收集到这样的平行数据,大多语音转换方法仍然需要对训练数据进行时间对齐,对齐过程不可避免会引入误差,并需要其他复杂的过程,如精确的语料预处理或者手动纠正来解决时间对齐错误的问题。由于平行文本语音转换技术在实际应用中的局限性,非平行语音转换技术成为当前语音转换研究的热点和难点,其中基于星型生成对抗网络的语音转换方法提供了非平行文本条件下的多对多语音转换框架,基于此框架,本文提出一种基于融合i-vector嵌入和密集连接星型生成对抗网络的语音转换方法,以此来改善语音转换的性能。首先,提出了基于融合i-vector嵌入的Star GAN语音转换方法。为了更好地提升合成语音的个性相似度,本文在星型生成对抗网络模型中融合i-vector嵌入,i-vector是说话人是被领域中常用的一种特征,能够充分地表征说话人的个性特征,从而较好地提升转换语音的个性相似度,主客观评测结果表明本文提出的方案相比于基线系统,转换后语音的平均MCD值降低了3.25%,平均MOS值提升了8.02%,平均ABX值提升了5.25%,说明本文提出的方法在提升说话人个性相似度的同时也改善了语音音质。进一步,提出了基于融合i-vector嵌入和Dense Net-Star GAN的语音转换方法。本文将密集连接网络引入星型生成对抗网络模型中来提升转换语音的音质,密集连接网络的引入可以很好地解决训练过程中网络退化问题,有利于训练过程中梯度的反向传播,以此来提升生成器编码阶段的语义信息的提取能力,进一步,本文采用高斯误差线性单元替换传统的整流线性单元作为Star GAN模型的激活函数,辅助解决深层网络在训练过程中梯度消失的问题,加快其收敛速度,从而较好地改善转换后语音的音质。最后,将上述两个改进点结合在一起,提出了基于融合i-vector嵌入和Dense Net-Star GAN的语音转换方法,主客观评测的结果表明本文提出的方案相比于基线系统,转换后语音的平均MCD值降低了7.72%,平均MOS提升了15.24%,平均ABX值提升了6.55%,说明本文提出的方案明显地改善了语音音质,同时也改善了说话人个性相似度。
其他文献
自电磁波发现以来,无线通信系统已经历经了几次转变。从蜂窝通信系统引入以来,目前主流的通信频段是射频。然而,随着人们对高质量多媒体服务的要求,无线通信量与日俱增,可用的射频频段正在迅速减少。幸运的是,可见光通信(VLC)的出现为无线通信带来了新的机遇。可见光通信能够达到非常高的通信速率,并且能解决目前频谱资源短缺的问题。此外,可见光通信系统还可以应用于一些射频受限的场所,如医院和机场。目前,关于射频
钙钛矿作为新兴的优异半导体材料,在光电探测、激光、光伏、辐射探测领域均具有广泛的应用。而单晶钙钛矿由于其独特优良的光电特性制备的单晶钙钛矿的器件通常比基于其相应微晶、多晶的器件具有更加优异的光电性能。但是对于钙钛矿单晶的微纳加工面临的主要挑战是:溶液法制备卤化物钙钛矿功能纳米材料,还没有实现低成本、大面积、可控的高质量一维微纳单晶钙钛矿结构阵列的制备,本实验室利用特有的技术手段—浸润可控诱导组装技
高等教育内涵式发展,提高人才培养质量是核心与关键。课程是提高人才培养质量的重要抓手,直接关系着大学生的学习与发展。目前,我国高校普遍存在课程挑战度不足的现象。提高大学生的课程挑战度,提升课堂教学对学生高阶认知目标的达成度,是现阶段研究型大学教学改革必须关注的问题。N大作为我国“双一流”A类建设高校,致力于建设世界一流的本科教育,课程质量与水平尤为重要。因此,加强对高校课程挑战度的关注与研究,具有重
随着硬件设备性能的提升与人工智能技术的飞速发展,越来越多的领域开始使用激光雷达采集到的点云进行三维空间的场景理解,如自动驾驶、增强现实等。相机采集到的RGB图像具有丰富的纹理信息,而雷达点云不易受到外界因素的影响,具有较强的抗干扰能力。本文以雷达点云和图像为基础,对三维空间中的目标进行检测,主要工作内容概括如下:(1)提出了一种基于2D语义分割的3D目标检测算法(Semantic-based Fr
随着信息时代的快速发展,移动互联网得到快速的普及,记录社会和生产活动而产生出大量的数据和信息。这些数据和信息的合理使用,可以有效提高人类的劳动生产力。其中,视觉信息
近年来,深度学习被广泛应用于表征图像的复杂模式中,它有潜力解决遥感领域中一些经典且具有挑战性的问题。典型的深度学习需要内容丰富且数量极大的数据集来训练多层神经网络
当今,癌症被认为是全球发病率和死亡率普遍较高的人类复杂疾病之一。在癌症形成和发展过程中,癌症关键基因起到至关重要的推动作用。由于癌症本身的复杂性、发病原因的多样性
时值全媒体时代,网络直播得以快速发展,其形式包括但不限于:新闻播报、访谈节目、重大事件的实况转播等。随着5G时代到来,电视转播在信息传播中所占比例将增加,对于电视直播中同传的需求也将相应增加。省略策略是同传中译员常用的策略之一,面对电视同传的新形势,省略策略是否可行成为了本研究的主要研究方向。基于上述背景,本研究拟通过观察、对比和分析专业译员在电视直播现场同声传译的原文和译文,并考察同传中的“省略
模糊推理是模糊集理论的重要组成部分.模糊推理作为模糊控制的核心,取得了巨大的成功.作为模糊集的推广,区间值模糊集可以更好的处理不确定和不精确的信息,且能够有效的减少
在全球乙烯的工业生产环节中,碳五馏分是其重要的副产品之一。目前绝大部分碳五馏分作为裂解炉等的燃料,只有少部分通过加氢精制变成更高附加值的产品。加大碳五馏分的高效利