基于深度神经网络的语音合成算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wanshanshan1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成技术是指将计算机自己产生的、或外部输入的任意文字信息转换成标准流利的语音输出,具有着广泛的应用价值和重要的现实意义,被应用于实际生活中的各个场景。近年来,DNN在机器学习的各个研究领域取得的显著进展,证明了利用其非线性建模能力实现特征提取,能够提高算法进行分类或预测的性能。随着信息技术和人工智能技术的发展,人们对语音合成的需求日益增多,将DNN与语音合成技术相结合已成为语音合成领域的研究热点。通过搭建DNN模型,并且在大数据语音库上进行特征学习,可以大大增加语音合成的自然度,从而推动语音合成技术的发展。据大量研究表明,在现有的语音合成技术中,基于信号处理的传统语音合成技术的自然度已经无法满足人们的要求,这也是神经网络被应用在语音合成中的主要原因。同时,一般的基于DNN的语音合成技术仍然需要人工提取的特征,系统的开发和调试难度大。因此本文围绕基于DNN的端到端语音合成算法展开研究。首先,本文研究并分析了谷歌提出的Tacotron算法,验证了Tacotron算法的性能,并研究了在不同训练集下该算法的性能变化情况。选取LJSpeech语音库和Blizzard语音库作为训练集,对该算法的模型进行训练,测试所得到的MOS评分分别为3.82和3.63,收敛时间大约是200小时。接下来,本文研究并实现了基于位置敏感注意力机制的Tacotron算法,验证了基于不同的注意力机制的解码器对Tacotron算法性能的影响。选取LJSpeech语音库作为训练集,对该算法的模型进行训练,测试所得到的MOS评分为3.44。最后,本文进一步探究了新型DNN模型在语音合成中应用的可能性,设计并实现了一种利用Transformer网络从而提高训练效率的语音合成算法。首先,验证了该算法的性能,选取LJSpeech语音库作为训练集,对该算法的模型进行训练,测试所得到的MOS评分为3.76,收敛时间大约是28.4小时。同时,研究了在不同的批量大小、初始学习率和注意力头数等参数下该算法的性能变化情况。在此基础上,对该算法进行了优化,从而提高了该算法的稳定性,对优化后算法的模型进行训练,测试所得到的MOS评分是3.78。最后,将该算法与Tacotron算法进行了对比和分析,在训练时间都为30小时的前提下,基于Transformer网络的语音合成算法的MOS评分比Tacotron算法高0.23,训练速度是Tacotron算法的4.5倍。实验结果证明了在低时间成本下,基于Transformer网络的语音合成算法的自然度比Tacotron算法高,而且训练速度比Tacotron算法快得多。因此,基于Transformer网络的语音合成算法更满足实际应用需求。
其他文献
在现实生产制造中,因时常受到多种因素的影响从而导致其实际加工时间发生改变。不同的因素对工件的影响也不尽相同,例如维修活动、学习效应、退化效应等。本文研究几类加工时间可控的单机排序问题。其中工件的实际加工时间与开始加工时间、工件位置及凸性或线性资源分配相关,并考虑了维修活动。具体内容如下:1.对于加工时间可控的凸性资源分配的情况,从公共工期、松弛工期、随意工期三种不同的工期分配角度讨论了单机排序问题
医疗卫生事业是社会高度关注的热点,在医疗事业中,急救占有首要的位置。我国的医疗资源分配的形势为东西部分配不平衡,西部较匮乏,城市同乡村的医疗服务水平存在明显的差异。
本文以新型MPDB试验形态下车辆碰撞相容性为研究对象,分析了碰撞相容性的主要影响因素,得到影响因素和碰撞相容性之间的关联性。运用试验数据统计对新型MPDB试验车辆质量与台
目的:癌结节(Tumor deposits,TDs)是直肠癌预后的重要指标之一。在最新的TNM肿瘤分期系统中,TDs被纳入淋巴结分期,划分为N1c,而在合并有淋巴结转移的患者中,不再将TDs纳入分
本文依托国内外生态城市规划的理论基础和实践经验,以建设生态城市为理念,通过对重庆市大渡口区空间结构进行优化布局,将生态城市规划理念融合到分区规划中,为提高城市生态环
市委、市政府作出"一区两群"协调发展决策部署,加快推进主城都市区发展,是深入贯彻习近平总书记重要讲话精神和重要指示要求的具体行动,是认真落实中央关于推进新型城镇化、
随着《绿色建筑评价标准》GB/T 50378-2019的颁布实施,中国绿色建筑发展已从试点推广进入全面绿色化阶段。在这样的背景下,如何建立健全推广机制,是促进绿色建筑进一步发展的
在北方平原地区,多孔水闸经常出现与设计工况不同的部分孔小开度开启的情况,下泄水流流速较大,能量集中,出消力池后出现二次水跃,极易对闸后河渠造成冲刷破坏。选择合理的消能工形式,科学确定结构尺寸至关重要。通过数值模拟和物理模型试验对比二道坎式消力池和传统的挖深式消力池水流特性和消能效果,为改善闸后消能防冲设施损毁状况提供依据。主要研究内容和成果如下:(1)分析了多孔闸门在部分孔小开度开启时对下游造成的
大卫·哈维(以下简称哈维)是新马克思主义重要代表人物,国际前沿理论家,在社会学、人类学、政治经济学等方面都有重要建树。哈维的生态学马克思主义思想是在全球化进程中,全球生态危机越来越严重、以及各种生态保护运动和反资本主义运动此起彼伏的背景下,继承和发展马克思主义理论,生态学马克思主义理论、法兰克福批判理论以及生态学理论的基础上形成的。哈维的生态学马克思主义思想以其独特的历史-地理唯物主义、过程辩证法
人类对能源的需求日益增加,但传统的矿石燃料资源却日益枯竭,能源问题开始逐步凸显。交通领域是能源消耗“大户”,尤其是车辆的能源消耗在逐年增高,对环境的影响也在不断增加,社会对于清洁能源的需求越来越迫切。海洋能因其密度巨大、储量丰富,并且是清洁的可再生能源,因而备受关注。把海洋能和车辆相结合,一定程度上可以减缓能源压力,对于海洋能的应用领域研究和新能源在车辆上的应用具有研究意义。本文针对将海洋能和车辆