【摘 要】
:
语音是人类日常交流中必不可缺的信息交互方式之一,而声纹转换技术是语音算法中的一个重要研究方向。声纹转换的目标是:在保持内容不变的基础下,使一段语音经过算法处理后听起来像另外一个人说出来的。声纹转换技术被广泛应用在各种场景中,如语音交互,语音的个性化定制,娱乐行业等。近年来,随着深度学习技术的快速发展,声纹转换技术也取得了明显的进步。作为声纹转换领域的一个重要子方向,零样本声纹转换也受到广泛关注。此
论文部分内容阅读
语音是人类日常交流中必不可缺的信息交互方式之一,而声纹转换技术是语音算法中的一个重要研究方向。声纹转换的目标是:在保持内容不变的基础下,使一段语音经过算法处理后听起来像另外一个人说出来的。声纹转换技术被广泛应用在各种场景中,如语音交互,语音的个性化定制,娱乐行业等。近年来,随着深度学习技术的快速发展,声纹转换技术也取得了明显的进步。作为声纹转换领域的一个重要子方向,零样本声纹转换也受到广泛关注。此前,大量的研究者针对各种场景提出了相对应的声纹转换算法,但是零样本条件下的声纹转换技术仍然是一项具有挑战性的任务。近年来,零样本声纹转换技术大多是基于自动编码器框架辅以精心设计的瓶颈层实现的。然而,这类做法使其泛化性能不足,同时限制了零样本声纹转换的进一步拓展和改进。针对这些问题,本文基于生成对抗网络对零样本声纹转换算法进行研究,主要研究内容如下:(1)本文提出了一种基于生成对抗网络的零样本声纹转换框架。对未出现在数据集中的说话人,本文算法使用音色编码器从输入语音中提取音色特征,并使用内容编码器从任意其他说话人的语音中生成内容分布特征。本文算法通过声纹转换-重建循环训练来分离音色和内容信息,并学习合成新的语音。同时,本文算法通过对抗训练来提高声纹转换质量以及泛化性能。实验结果表明,在零样本声纹转换中,本文提出的算法可以实现更高质量的声纹转换。(2)在本文研究内容(1)中,语音信息被分解为音色和内容是不够准确的。从声学特征的角度,语音中的信息成分可以更完整的分解为:内容,音色,韵律和音高。因此本文在研究内容(1)的基础上提出了一种基于生成对抗网络的任意语音成分转换的零样本声纹转换框架。通过信息编码器和时序再缩放对四种语音信息进行解离和嵌入,并自定义重构。实验结果表明,在零样本声纹转换中,本文提出的算法可以实现具有更强的应用性和通用性的任意语音成分转换算法。本文在零样本声纹转换领域进行拓展和改进,提高了声纹转换技术的实际应用性。
其他文献
国家形象是国家软实力的重要标志,体现了一个国家的综合实力和影响力。新闻报道是塑造国家形象的重要途径,不同国家的媒体通过新闻报道可以极大提高其国家威望和国际影响力。而国家形象的塑造离不开新闻报道中丰富的评价资源。有关2019年底的新型冠状病毒肺炎的报道具有丰富的评价资源,为我们研究新冠肺炎疫情的新闻报道中评价资源构建和反映出的国家形象提供了素材。本文以评价框架为理论基础,以语料库软件UAM Corp
在复杂的国际合作与竞争中,国家形象有着重要的战略意义。而环境形象作为国家形象的重要组成部分,也是国家“软实力”的重要体现,直接影响一个国家政治、经济、外交等方方面面。随着全球气候危机的加剧,气候变化已经成为一个全球关切的环境议题,背后体现的是权力与话语的争夺。因此,中国对外宣传媒体借助气候变化报道讲好中国气候治理故事,塑造良好的中国环境形象,提升中国国际话语权的重要性不言而喻。鉴于此,本研究选取2
作为一种新型教学形式,慕课因其开放性、大规模传播等优势受到广泛关注。但有效互动不足、辍学率高等现实问题使其面临挑战。随着慕课、在线课程等网络学习形式的迅速发展,如何有效评估与提升在线学习投入一直是研究者的关注焦点。近些年,相关研究集结于学习者在线学习行为投入,但鲜有研究探讨主观情感因素及认知过程。本文就某英语口语课程学生的认知投入、情感投入情况进行研究,深入探讨基于量规的同伴互评对学生在线学习投入
根据2022年6月降水前后辽河沈阳段国考断面水质自动监测站数据变化,统计溶解氧、高锰酸盐指数、总磷等污染物超标情况,计算汛期断面污染强度,分析了污染原因。
良好的水动力及抗侵蚀性能是螺旋桨作为船舶动力推进系统核心部件的必要条件,这就要求其桨叶采用硬质合金材料制成,并且呈复杂的空间自由曲面形状。因此,船舶螺旋桨的设计、加工难度大,精度要求高,采用传统的设计加工方式很难满足船舶实际工况要求,是船舶工业研究的难点。近年来,基于逆向工程的船舶关键零部件数字化设计与自动化加工技术研究成为行业内的研究重点,该方法以实际船舶部件为对象,利用多种技术手段对工件尺寸数
目的 通过重组人干扰素α2a和α2b注射液的不良反应对比研究,为其临床合理安全用药提供参考。方法 收集2010年1月—2021年11月浙江省上报的不同重组人干扰素注射液不良反应报告604例,对不良反应报告的患者性别、年龄、给药途径、不良反应临床表现、不良反应类别、转归等进行分析,并对其不良反应累及系统、器官进行差异性对比研究。结果 重组人干扰素α2b注射液严重报告比例略高于重组人干扰素α2a注射液
本翻译报告源语文本选自《50个客体中的知识产权史》中的六个章节。原作通过50个典型的客体全面介绍了知识产权发展历程,全方位展示了知识产权与人类社会之间的相互影响。该书融理论性与可读性于一体,一方面可为知识产权研究领域学者提供文献参考与理论借鉴,另一方面有助于普通读者掌握知识产权的基本常识,提升大众的知识产权保护意识。本实践报告以维索尔伦提出的顺应论为理论指导。顺应论主张使用语言就是在不同的意识程度
近年来,随着信息通信技术(Information and Communications Technology,ICT)的发展,物联网(Internet of Things,IoT)已经成为人们生活和各个行业中不可或缺的一部分。工业物联网(Industrial Internet of Things,IIoT)重塑了工业生产的面貌,加速了工业4.0的发展,实现更高效和可持续的生产。然而,传统的IIoT
柑橘渣(CP)是柑橘加工的副产物,具有季节性和高含水量的特点。由于技术、资金和环境条件限制,柑渣副产物的利用效果很低。然而其营养丰富,含多种碳水化合物、有机酸和多酚黄酮类生物活性物质等。本课题筛选了柑橘渣中的自生益生菌,比较其在柑渣中的生长繁殖效果以及产酸产酶能力,同时探索了部分自生益生菌的基因功能;结合生产蛋白饲料常用的产脘假丝酵母,通过响应面模拟优化方法,探究了益生菌发酵柑渣提高其蛋白含量的最
社区综合养老服务设施是时下全社会和建筑学界研究的热点,其建设目的是为回应城市老年人群体在熟悉的社区环境内养老的诉求。但在其实践探索过程中仍存在一些问题,如设施规划和现有公共服务资源之间彼此割裂、不同年龄层次群体之间缺乏包容共享、养老设施建设被“趋避”等。社区综合养老服务设施探索发展中出现的问题亟需引入一套完整的理论予以设计指导,这对解决当前设施发展中存在的不足具有重要的借鉴意义。“共生”的概念起源