多风格语音合成模型的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:pipijiayoua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是将文字合成语音的技术,在很多应用产品中扮演了很重要的角色,例如导航系统、语音助手(谷歌助手,苹果Siri,微软Cortana等)、语音到语音翻译系统等。理想地,合成的语音应该传达文字信息(可理解性),同时听起来像人类发出的声音(自然性),并且带有不同风格(多样性)。然而,大多语音合成系统主要关注在可理解性和自然性上。近些年来,基于深度学习的模型在很多领域取得了巨大的成功,我们见证了深度学习技术给语音合成领域带来了激动人心的发展。第一,基于深度学习的语音合成系统消除了大量人工标注的特征工程工作,让机器能够自动地从原始数据中提取抽象、显著的特征;第二,基于深度学习的语音合成系统能够在不同的输入下,控制合成不同风格的语音,例如,不同语速、不同说话人、不同情绪等。第三,基于深度学习的语音合成系统适应性更强,将设计的模型应用到新的数据集上,不需要过多的人工特征设计的工作。最后,端到端的语音合成系统是整体来训练的,相较于传统的多个独立训练阶段,模型的鲁棒性更强。在这篇论文中,我们主要利用深度神经网络来实现多风格语音的合成。我们的贡献主要分为两个方面。第一,为了覆盖更丰富和更多样的语音风格,我们从双语版动画电影中利用字幕信息来切割音频,制作出了多风格语音数据集和跨语言多风格数据集。第二,我们设计了两种不同的多风格语音合成模型,分别为多风格语音合成模型和跨语言多风格语音合成模型,这些模型能自动地从参照音频中提取语音风格特征,并且这些模型能够以随机初始化的方式从头开始训练,消除了传统模型需要人工设计特征的工作,提高了模型的泛化能力。在论文的实验部分,由于自制的数据集中存在背景噪声,我们采用巧妙的训练策略来使模型的训练更简单和更稳定。最后,我们做了一系列的实验来验证和解释训练好的模型。
其他文献
飞速发展的Web技术及电子商务正在极大改变人们的工作和生活方式,为了提高消费者的交互体验,电子商务网站允许并鼓励消费者对其所购买的商品发布评论,产生了大量的商品评论。
针对水土保持技术评估研究滞后的现实,为了给流域未来水土保持技术的选择提供参考依据,借鉴课题组构建的水土保持技术评估体系,并对各指标进行解译,得到评分标准,运用层次分
从凸函数定义出发研究了连续函数与凸函数的关系,给出了连续凸函数的几个判定条件,并刻划它们的几何特征.
避雷器试验是一项细致且严肃的技术工作,工作危险性大且作业环节复杂,剖析了目前避雷器现场试验的安全状况,并按停电试验和带电试验以及不同的试验方法介绍了在进行避雷器现
Vav1蛋白是特异于造血细胞表达的鸟苷酸转换因子,它参与了多种免疫细胞如T细胞,B细胞,巨噬细胞,自然杀伤性细胞等的胞内信号转导,发挥着重要作用.小干扰RNA(small interfering
伦敦大学学院的教学助理既是教授的助理,又是未来大学教师的后备军,还是学生的服务者。他们不仅缓解了教授的教学负担,还为大学注入了新鲜血液,服务学生,保障教学质量。伦敦大学学
主轴箱是数控车床中的关键部件,主轴箱动态特性、静态特性将直接决定整机寿命和使用工况。本研究作为校企合作横向科研项目,选用企业中常见的CJK6132数控车床主轴箱作为研究
印度总督寇松主张以武力入侵西藏,消除俄国对英属印度的威胁,强化英国在藏优势。荣赫鹏兵侵拉萨是其“前进政策”的主要举措。此时,英国内阁尚无完整的对藏政策,故而对寇松政策予
据预测,1995年意大利女装出口将增长20%,从而保持连续3年大幅度增长。据统计,1993年意大利女装出口约38亿美元, It is forecasted that in 1995 Italy’s women’s clothing
期刊
作为我国诉讼法历史上的一个里程碑,经过修改的新刑事诉讼法符合了我国法治建设的需要,促进了我国人权保障制度的发展。我国刑事诉讼法着重从被害人与被告人的角度进行了人权