基于Transinger前端模型的端到端歌声合成方法

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:wushiguo208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
歌声合成是语音合成的衍生技术,通过提取乐谱中的信息来合成电子歌声,是计算机技术在音乐领域中的经典应用。从早期的样本拼接方法、参数式模型到当前的神经网络模型,歌声合成系统的性能已经达到了人们能够接受的水平。目前相关的研究工作都是基于串联式的模型结构,用乐谱信息中的歌词、音高和节拍等信息训练多个模型协同工作。在构建歌声合成系统过程中,通常需要多个领域的专业人员协同工作,模型训练难度大,工程时间长,并且串联模型容易出现误差累积,最终合成效果不稳定。受到语音合成技术研究的启发,本研究基于深度学习方法提出一种完全端到端的歌声合成前端模型Transinger,它用于简化模型的构建和训练过程;在此基础上,根据前端模型和歌声数据的特点,本研究对现有的神经网络声码器模型进行研究和改进,分析声学特征和歌声数据的特点,对比前端模型和声码器在歌声合成任务中的效果,最终提出一套端到端的歌声合成方法。实验结果证明本研究提出的方法可以合成高质量且自然的歌声,并且证明音高条件控制方法可以加强声码器模型的鲁棒性和收敛速度。此外,本研究也对多歌手的歌声合成任务进行尝试,发现Transinger模型在添加歌手身份信息的条件下,可以同时合成出多位歌手的歌声。
其他文献
美丽乡村精品线是美丽乡村发展之路的阶段性产物,是实现乡村振兴的有效途径,是美丽乡村由点到面区域联动发展的必要措施,它推动了"大景区建设"的全域实施,实现全域美丽。本文
螺旋不连续定量加料是封闭、安全的工业生产方式,广泛应用在粉体物料的加工和包装。粉体填充率是定量加料的关键参数,对定量加料准确性和生产效率影响很大。螺旋加料管道内的
行人再识别是计算机视觉领域中一个非常重要的研究课题。利用行人再识别技术,可以高效的检索视频监控数据,快速获取目标人物的线索,为勘破案件赢得宝贵的时间机会。行人再识
目的:卵巢癌是最致命的一种妇科癌症,患者五年生存率仅有30%。由于卵巢癌异质性高,病理学机制复杂,常规化疗药物仅能使部分患者的病情较好缓解,且停药后多数患者会经历复发,长期化疗可使癌细胞产生耐药性。因此,寻找新的卵巢癌治疗方法和策略尤为重要。PARP抑制剂是一种新型卵巢癌治疗靶向药物,可通过抑制卵巢癌细胞的DNA损伤修复发挥抗癌作用,且可与其他化疗药物联用产生更好的治疗效果。有研究表明,PTEN缺
随着信息技术和互联网技术的发展,身份认证和鉴别逐渐成为当今互联网时代的研究重点,而人脸识别技术在身份认证方面有着独特的优势。目前人脸识别已经成功的应用于安防监控、
随着我国科技的迅速发展和生活水平的不断提高,人与人之间的交互更加密切和频繁,在各种社交场合中经常出现机会式社交这种在短时间内需要迅速的了解其他人的个人信息的场景,
目前执行繁琐单调服务任务(例如扫地机器人)的机器人技术已比较成熟,但是执行服务任务的智能化水平还有待提高。当机器人执行智能化的服务任务时,需要机器人对服务对象的环境
目的本实验通过建立蒙古羊牵拉成骨模型,采用常规超声、多普勒超声、超声造影成像技术对骨延长牵拉期进行监测,并对照同期X线扫查结果,分析新生骨形成的影像学特点,评估新生骨血管化程度,探讨多模态超声在监测骨延长过程中的临床应用价值,以期提高骨延长治疗的成功率。方法对10只同种、同月份出生,重量18-20kg、饲养条件相同的蒙古羊右后肢胫骨行牵拉成骨模型造模。术后第3天开始延长,速率为lmm/d,每4h牵
随着网络自制综艺节目(以下简称网综)的流行,其节目内容质量高、话题性强以及受众数量大的优点,为植入式广告发展迎来新的契机。本研究选取网络综艺《奇葩说》的植入广告为研究对象。《奇葩说》自2014年首播至今已播出七季,是成功网综的代表,《奇葩说》节目以创新的方式植入广告,在形式和内容上都具有特色,带来了非常可观的广告收益,前五季节目的总招商金额就达到了15亿元人民币。~((1))《奇葩说》的植入式广告
上肢运动功能评价的准确性和可靠性在康复领域方面倍受专家学者的关注。本文利用现有的肌电采集技术,对表面肌电信号进行分析,定量进行运动功能评价,研究上肢在不同握力与耦