基于端到端的汉语语音合成研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:xtmyddddd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成(Text To Speech)技术能将文本内容转换为语音。传统的语音合成技术主要为参数合成和拼接合成两类方法。参数合成方法在建模时无法避免语音信息细节丢失的情况,导致了合成的语音音质较低;拼接系统虽然能够最大程度保证合成音频的原有特征,合成的音频音质高,但拼接系统对语料库有较高要求,通常需要人为地去挑选,合成成本高。基于端到端的语音合成结合了上述传统语音合成技术的优点,在保证合成高质量音频的同时降低了对语料库的要求。通过端到端合成,人们只需在系统内输入待合成文本,系统便能够直接合成语音,过程简洁高效。然而目前的端到端合成主要面向英文进行语音合成,汉语语音合成由于自身存在的难点如多音字等现象使得语音合成难度大,合成音频自然度较低,机械感强,因此少有针对汉语的语音合成。本文设计了一个基于端到端的汉语语音合成方案,并构建了自动语音合成系统原型,通过本文方案合成的语音较传统语音合成技术而言具有更高的自然度和相似度、停顿现象少、发音错误率低等优点。主要工作和成果如下:1.为了解决汉语中复杂的韵律变化问题,本文对位置敏感注意力进行扩展补充,引入多头注意力机制进行韵律预测;此外,为了解决汉语语音合成中的突然停顿现象,在语音合成阶段的后处理网络中引入了 CBHG(1-D convolution bank+highway network+bidirectional GRU)模块,纠正单帧预测误差的前后双向信息,提取更高级别的上下文特征,有效提升了合成的音频音质并减少了语音合成中的停顿现象。最终合成的音频听感积极,自然度高,无明显停顿现象。2.设计了一种单人语音数据集的自动化创建方法,减少了人力成本。由于端到端的语音合成对训练数据量要求较高,本文通过对数据集扩增的方式减少了训练所需数据量;3.设计并实现了汉语语音自动合成系统,用户只需在系统内输入待合成文本并点击合成按钮即可直接合成音频,同时为用户提供在线播放和下载等功能以满足用户需要。
其他文献
根据最新的《中国互联网络发展状况统计报告》,中国移动互联网用户数量已高达7.88亿,以手机为中心的智能设备正不断与人们的消费、医疗、学习等需求紧密融合。在教育领域,国家财政教育支出的GDP连续六年超过4%,且教育经费投入仍在增加。移动教育的出现,深化了全民教育和终身教育的发展,并在一定程度上解决了我国教育资源发展不平衡的问题。近年来,出现了各种类型的移动教育APP,这已经成为人们进行移动学习的新方
嗜麦芽菌素P28(maltocin P28)是嗜麦芽寡养单胞菌P28菌株产生的一种类似噬菌体尾部结构的细菌素(PTLB),能够杀死多株嗜麦芽寡养单胞菌。Maltocin P28的基因表达与环境压力的关系尚不清楚,其基因簇编码的ORF3、ORF5和ORF6蛋白的调控方式也待解析。本论文以此两点为出发点,研究了各种环境压力对maltocin P28基因表达调控的影响,随后,明确了SOS反应系统中的Re
KRAS突变常见于胰腺癌和肺癌患者中,并且和患者的预后、免疫反应或免疫治疗相关。为了研究KRAS突变对肿瘤免疫微环境的影响并构建KRAS突变相关基因的预后模型,我们下载了TCGA和GEO数据库中胰腺导管腺癌(pancreatic ductal adenocarcinoma,PDAC)和肺腺癌患者的基因数据和临床资料。以此为基础分析了KRAS突变和野生型患者基因表达的差异,并对差异基因进行单因素Co
有人说注册会计师的发展史是一部诉讼史。国外注册会计师行业的发展,审计准则的发展、审计责任范围的扩展,往往伴随不断发生诉讼案件而演进。但是在我国,注册会计师应承担的审计责任主要由监管部门来认定,更多的体现在证监会处罚上市公司提供虚假的财务信息时,注册会计师因未能发现存在的问题而连带地接受行政处罚。在2019年6月,证监会在处罚华泽钴镍的财务造假事件时,同时处罚了负责其年报审计的瑞华会计师事务所,瑞华
目前三维地籍相关研究中,大量三维产权体彼此邻接、聚集排布形成三维群集对象。针对群集三维对象可视化,存在难以有效地表达以及辅助认知空间内部单个对象(如:产权体)的具体空间位置、空间形态以及对象间的空间关系等问题。本研究基于“Focus+Context”可视化思想,提出三种针对群集三维对象的变形可视化算法,并采用真实三维房产数据生成的群集三维对象作为实验材料,通过空间认知实验探究被试者认知群集三维对象
高空间分辨率的遥感影像具有更加清晰的地物轮廓、更易于判读的纹理几何特征等优势,被广泛应用于农业监测,灾害估计,城市分析,土地利用调查等领域。然而,高分辨率遥感影像表现出了同物异谱和同谱异物的性质,使得同一类别的目标光谱差异性较大,而不同类别的目标光谱差异性较小,因此高分影像的应用仍面临一些迫切需要解决的问题。经典的分类方法往往采用影像中的光谱信息,而忽略了影像所包含的丰富的空间信息。面向对象分割的
深度学习和强化学习技术的快速发展推动了人工智能领域中相关理论和技术的创新。自从2016年Alpha Go智能机器人的大获成功,越来越多的科研人员开始关注机器博弈领域算法研究。机器博弈是人工智能领域中难度最大的研究方向之一,根据智能体掌握信息完全与否,机器博弈被划分成两大类:非完全信息机器博弈和完全信息机器博弈。围棋智能体的成功代表着机器博弈领域中完全信息游戏取得了历史性突破。对于状态和动作空间更大
为适应对地观测、资源调查、自然灾害预测、环境污染监测等领域的需求,精确的遥感影像云检测对于遥感影像的应用具有重要意义。然而受到云类型多样性、下垫面复杂性等问题的影响,精确的遥感影像云检测依旧存在各种难点。现有的云检测方法或依赖于云特征计算及阈值设定,或依赖于云及云影的位置匹配,又或者结合特征提取及简单分类模型实现遥感影像的云检测任务。但由于云的厚薄程度及下垫面复杂程度的影响,现有方法中存在阈值的适
近年来,随着空间数据获取手段的不断进步,空间数据呈现多维性的特征,三维GIS成为GIS领域的研究热点之一。现有三维GIS的研究大多数集中在三维空间数据获取、三维空间数据模型、三维空间数据可视化等方面,三维空间分析相关的研究有待进一步开展。而空间分析是GIS系统区别于其他系统的最大特点,缓冲区分析则是空间分析中最基础且重要的功能之一,其结果常被用来作为其他空间分析的基础数据。目前,二维GIS中缓冲区
目的:本研究意在了解国内男男性行为人群(Men who have sex with Men)的同性恋歧视状况、内化歧视状况和出柜行为状况。分析同性恋歧视和内化歧视对出柜行为的影响,探究其对出柜行为的中介机制,为MSM人群多种出柜行为的改善提供针对性的理论依据。方法:在2017年08月-2018年01月期间,通过机遇抽样和同伴推荐相结合的方式在多个城市(武汉、宜昌、长沙和南昌等)的不同场所(检测机构