基于深度学习的中文语音合成方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:LIZHAOAA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是一种将给定文本转换为语音的技术,它在手机语音助手、有声读物、歌曲合成、地图导航等领域具有广泛的应用。近年来,随着神经网络理论的快速发展,基于深度学习的语音合成方法成为当前的研究热点,并取得重要研究进展。该类方法通常采用端到端的语音合成模型,所合成的语音质量高、自然度好,但其参数较多,计算量很大,对硬件设备的存储能力和运算能力要求较高,在算力较低的设备上难以实现实时的语音合成。本文针对中文的端到端语音合成,考虑到低复杂度的需求,分别应用自回归模型和前馈模型,研究了相应的语音合成解决方案。本文的主要工作如下:(1)提出了基于深度可分离卷积(Depthwise Separable Convolution,DSC)和门控残差网络(Gated Residual Network,GRN)的自回归语音合成模型。在该方法中,使用深度可分离卷积,以有效地降低深度模型的参数量和计算量;通过门控残差网络,堆叠多层扩张系数不同的深度可分离卷积,以增加卷积感受野,使编码器和解码器能够捕捉较长时间跨度的序列上下文信息,从而提升模型拟合文本序列和频谱序列的性能;在注意力方面,使用多头注意力机制,以提升文本特征和频谱特征之间对齐的稳定性。本文还针对中文语音合成,进行了中文文本预处理,比较了不同类型的输入对于模型性能的影响。(2)针对深度可分离卷积训练困难和自回归结构推理较慢的问题,提出了基于Ghost模块和残差网络的前馈语音合成模型。该模型是带有持续时间预测器的全卷积模型,它用Ghost模块代替深度可分离卷积,通过调节模块的压缩比,就可有效降低模型的参数量和计算量;本文用持续时间预测器实现文本特征与频谱特征的对齐,有效地减少了错误发音、漏音、重复发音的现象。此外,本文还比较了不同方法提取的持续时间序列对模型性能的影响。本文用多种评价指标对上述方案进行评估。实验结果表明,与已有自回归模型相比,本文提出的自回归模型参数量少,合成速度快,且能保证合成语音的质量。本文提出的前馈模型进一步减少了参数量,合成速度大幅提高,在单核CPU上,搭配轻量级声码器,其语音合成的速度比实时播放的速度快24倍,且合成语音的质量较高,主观平均意见得分达到了3.98,仅比主流的大参数量前馈模型约低0.1;此外,该方法对于不同说话人语料的适应性较好,使用较少的数据微调模型,即可合成自然度和相似度较高的语音。
其他文献
调度问题是指将有限的资源,在给定时间内分配给若干任务,从而优化一个或多个调度性能指标,如最大完工时间、总加权拖期等。作业车间调度问题(Job-shop Scheduling Problem,JSP)是生产调度问题的重要分支,受到了众多研究学者的广泛关注。在JSP问题的研究基础上进行拓展,可以为其他生产调度问题的研究提供理论指导。JSP问题作为最简单的调度问题,是许多复杂生产调度问题的基础与简化。同
在当今国内公共交通领域高速发展的背景下,地铁系统中各条线路的设备设施运行品质是否达标就成为了一个地铁公司能够稳定运营的重要的指标之一,也成为了广大乘客能够顺利利用公共交通方式出行的重要基础。由于设备设施维保具有大量非高技术含量人力的特性,S市地铁的设施保障项目前采用了劳务外包的方法进行设备设施的维保。但是在项目的运行过程中出现了一系列的问题,导致项目的整体质量不尽如人意。究其原因是维保项目对劳务外
地市是"三线一单"编制与实施的主体,做好地市级"三线一单"编制与应用工作是建立区域生态环境分区管控体系的重要途径。研究结合省级成果编制经验,从省市联动、"一张图"统筹及管控要求落地等方面,提炼地市"三线一单"编制的工作要求,以衡水市为例,完善了地市"三线一单"基础分析、要素分区管控、单元划定与清单编制等技术方法,探索"三线一单"在规划支撑、园区管理和污染物总量管控等方面的成果应用,以期为其他地市"
上个世纪80年代我国开始引入政府和社会资本合作PPP(Public Private Partnership)模式发展基础设施、推进新型城镇化建设。伴随着基础设施投融资体制的改革,从最初的BOT模式,到BT模式,进一步发展到了如今的PPP模式,PPP模式自身也在逐渐演化和发展。然而在PPP模式的演化过程中,地方政府作为PPP项目的主要发起人和责任人,利用我国行政体制下的自由裁量权实施了“兜底回报”、
我国力争在2030年前实现碳达峰,2060年前实现碳中和,这是党中央经过深思熟虑做出的重大战略决策,事关中华民族永续发展。如何通过环境规制政策的制定和实施推动经济高质量发展和产业结构的优化升级至关重要。以此为研究背景,本文基于中国1995—2016年261个地级及以上城市的产业结构调整数据,以“两控区”政策和“我国首次约束性污染控制”政策为总量控制政策的代表性政策,结合双重差分法,研究政策的实施是
如何将项目管理理论应用于招商引资的实际工作,通过流程化、规范化、项目化的管理方法来实现招商引资工作软环境的改善,提升工作效率与服务质量,带动本地区经济快速稳健发展,已经成为各地招商引资工作的重点。2018年末的体制机制改革,使盘锦A经济区剥离了原来所有的行政职能,主要任务转为经济发展,招商引资工作正成为全区的第一要务。招商引资项目化管理是把每一个签约项目打包成一个项目包,以实现项目总体目标为导向,
多目标跟踪任务是计算机视觉领域的一个重要问题,旨在对视频中出现的所有目标进行识别与跟踪,常见的跟踪目标是行人与车辆,多目标跟踪在智能监控、姿态识别等领域有着重要的应用。在多目标跟踪任务中,存在两个难点问题影响跟踪的精度:第一,目标间的遮挡会导致跟踪轨迹的中断以及跟踪目标的跳变,第二,由于多目标跟踪任务需要基于目标检测的结果,所以目标检测结果的质量会直接影响跟踪精度。本文针对上述问题开展如下工作。首
调制信号识别是智能通信、非协作通信和无线电频谱管理等领域的一项关键技术,旨在识别接收信号的调制类型。深度自编码器是深度学习领域中一种在半监督学习和无监督学习中使用的人工神经网络,具有强大的数据特征取功能。本文分别从信号降噪、特征取和信号识别等三个方面研究了深度自编码器应用于调制信号识别的方式与性能,具体内容包括:(1)研究并实现了一种基于栈式卷积降噪自编码器(SCDAE)的信号降噪方法。由三个降噪
冬奥会创办至今已走过83年的历程,其独特的冰雪魅力和所承载的挑战自然、追求极限、战胜自我的奥运精神不断吸引更多的人关注和参与。在信息快速发展的时代,奥运会或是任何体育赛事都缺席不了媒体的传播和报道。奥运会举办期间,媒体都会为受众报道相关的体育赛事状况,其中具有代表性的媒体就是《人民日报》。它是我国最具影响力和权威性的报纸,而且从1980年就开始报道冬奥会,为读者呈现每届冬奥会赛事的盛况。2022年