面向小样本的个性化中文语音合成研究

来源 :杨宜涛 | 被引量 : 0次 | 上传用户:assasad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语音合成技术日趋成熟的今天,人们对合成语音的要求不再停留于自然可懂的层面,而是希望语音合成系统可以更加多样化和个性化,即可以根据人们的需求,个性化地定制特定说话人的声音,此类技术也称之为语音克隆。但在实际的系统搭建过程中,个性化中文语音合成系统往往会受限于各种小样本数据问题,而无法保证合成系统的泛化性和准确性。首先,在语音克隆过程中,需要定制的目标说话人的语音数据往往十分稀少,因而无法使用大规模的数据驱动方法对目标说话人的音色进行建模,而现有的基于小样本的语音克隆方法存在训练步骤繁琐、模型泛化性不足等问题。此外,对于个性化中文语音合成系统而言,前端多音字消歧模块也饱受数据问题的困扰。现有的多音字消歧模型往往需要海量的多音字标注文本,但此类数据通常需要人工标注,收集代价十分昂贵,而仅存的开源数据集存在数据量少、数据质量差等问题,难以保证多音字消歧的质量,从而导致合成语音出现字音错误。针对以上问题,本文进行了如下工作。(1)提出了基于音素级别说话人特征的小样本语音克隆方法。该方法提取和利用少量目标说话人语音中的细颗粒说话人特征,并引入注意力机制对各音素间的说话人特征进行迁移,辅以说话人随机样本的训练策略,从而提高对目标说话人的语音的利用效率,在小样本场景下实现高质量的语音克隆。(2)提出了基于元学习的多音字消歧方法。该方法不再将多音字消歧任务作为机器学习中的分类任务进行处理,而是通过特征对比的模式,将多音字中不同读音的语义特征进行对比和区分,以确定多音字的读音。最后的实验结果表明,本文提出的小样本语音克隆方法,相比现有方案更具泛化性,可以根据少量目标说话人语音数据克隆出兼具自然度、音色还原度的语音。同时,本文提出的多音字消歧方法在低质量的训练数据集上仍然表现出了优秀的消歧性能,相比现有方案展现了充足的泛化性能,并且对于训练数据集中未曾出现过的多音字也有一定效果。
其他文献
近年来农作物病虫害情况呈加重态势,对粮食生产已构成直接威胁,提出了基于图像识别算法对大田作物进行病虫害数字化诊断与预警系统应用的方案设计,采用YOLOv3算法实现目标检测,引入卷积注意力模块(CBAM),通过无人机对大田作物的监测,以期提供可借鉴的方法。传统人工识别在大田信息检测上占很大劣势,其存在识别准确性低、效率低等严重缺陷,而若将图像识别算法与无人机相结合,用于检测农田,就会在降低病虫害发生
期刊
农作物病虫害是当今农业生产需要解决的重要问题之一。基于卷积神经网络的图像识别技术是一种新型的图像与数据处理技术,利用该技术,可以在农业种植过程中,及时准确地分析作物病虫害,以便做出快速准确的反应。综述了利用卷积神经网络模型识别农作物病虫害识别技术在国内外的发展情况,讨论了所调研文献中的病虫害识别关键技术,包括数据源选择、数据预处理手段、卷积神经网络模型和算法优化方式的不同与相似之处。提出了数据获取
期刊
随着无线网络技术的进步,频谱资源短缺,以LED作为信号发送端的可见光通信(VLC)系统引起了广泛的关注。相较于传统的无线电通信方式,VLC具有频谱宽、保密性好、抗电磁干扰等优势,具有广阔的应用前景。光学相机的革新及普及,使得以光学相机作为信号接收端的光学相机通信(OCC)系统引发了广泛的兴趣。本文将室内照明的灯具与OCC系统相结合,实现照明通信共用的室内OCC系统。本文首先搭建了室内OCC系统,针
学位
分子簇作为一类纳米尺度结构明确的原子或分子聚集体团簇,具有多样化的尺寸、结构与组成,在基础科学与应用中都具有良好的前景。分子簇的这些结构特征使其非常适合作为基础研究的模型体系,而分子簇本身也有许多尚未解决的科学问题。目前已有许多表征方法被成功应用于分子簇结构表征中,包括电子显微镜、各种光谱、核磁共振波谱、质谱、X射线衍射等。虽然这些方法均能提供有用的结构信息,然而它们仍然不能完全满足部分研究需求。
学位
作为最重要的大数据类型之一,时空数据具有空间属性、时间属性和其他属性等多维度的特点,其背后蕴藏着巨大的信息价值,在地图导航和智慧城市等日常生活各个方面发挥着十分重要的作用。通过对车辆行人既往的时空轨迹数据进行收集和管理,使用大数据技术分析出车辆的运行状况和人流的移动规律,可以有效地缓解城市交通拥堵问题,提高城市出行的效率。所以,如何对海量的历史轨迹数据进行存储和管理成了当前亟需解决的热门问题。同时
学位
超小发光金纳米粒子(AuNPs,d<3 nm)由于其可调的光学性质、表面易功能化及良好的生物相容性,在生物荧光成像和疾病治疗等生物医学领域受到越来越多的关注。当前,设计与开发光学穿透深度高、背景散射低的近红外二区发光(NIR-II,1000 nm-1700 nm)AuNPs探针的研究已成为光学成像领域的热点。AuNPs的光学性能与其表面化学性质及聚集状态密切相关。另外,发光AuNPs可产生单线态氧
学位
我国移动通信经历了2G、3G、4G时代,目前正处于5G建设与应用高潮阶段,极大地满足了人们的高速数据传输需求。天地一体化移动卫星通信是未来6G通信的关键技术,相比于传统的地面通信,其主要优势在于覆盖范围更广,不受地理因素的影响,不受运动限制。未来6G移动卫星通信终端需要与现有的5G和4G等移动通信终端融合,从而将实现天地一体化的全球无缝覆盖。因此,研究6G卫星通信与现代地面移动通信一体化终端天线具
学位
近年来,移动机器人的工作场景和功能需求呈现出多样化和复杂化的趋势。自主导航功能是移动机器人完成其他复杂功能的基础,是最不可或缺的功能之一。目前广泛应用于移动机器人中的自主导航功能主要使用激光雷达实现,无法利用图像和语言等具有丰富特征的信息进行导航和避障。如何让移动机器人理解图像和语言,并将其获得的视觉和语义信息利用到自主导航中成为亟需解决的问题。本文针对视觉和语义信息在移动机器人自主导航中应用问题
学位
随着国家“互联网+”的战略部署和工业信息化进程的加快,计算服务对社会乃至个人的影响越来越大。云计算的出现使计算资源得以集中分配和维护,解决了许多企业需要自己建造和维护计算基础设施的成本问题。然而,随着云计算的发展,作为云计算基础设施的数据中心也在加速扩张。数据中心巨大的能耗也在与日俱增,成为了社会和政府所关注的问题。为了能够对数据中心的能耗进行优化,对数据中心的能耗结构进行建模以及对数据中心系统资
学位
情绪是神经系统对外界环境和自身感受产生的主观反映,包含了人的很多信息,影响着人类的交流、学习、认知和决策。在人工智能的飞速发展下,如何让机器理解人的情绪也成为一个研究热点。人的情绪可以通过生理信号(如脑电图、肌电、眼动等)和行为信号(如面部表情、语音等)来检测与识别,生理信号具有真实、不易伪装的特性,而行为信号直观、简单,能够很自然的反应情绪状态。本文采用生理信号和行为信号中两种最常用的数据——脑
学位