中英文跨语言语音合成方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wangli7313981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,人工智能正在深刻影响和改变着我们的世界,智能人机交互的发展及应用极大程度上提高了我们的生活质量。语音合成技术能赋予机器像人一样自如说话的能力,是智能人机交互中非常重要的一环。近十年,基于神经网络的语音合成系统可以更快速地合成高质量音频,逐渐成为了主流。在汉语作为母语的同时,英语也逐渐成为我们的第二语言,中英文混读现象日益常见,中英文跨语言语音合成需求越发迫切。然而,主流的语音合成模型往往仅支持单语种合成,在合成中英文交替出现的跨语言文本时通常会出现难以接受的错误。现有基于统一表示或语言编码的跨语言语音合成方法存在着模型鲁棒性低和合成语音不自然等问题。为此,本文从模型的鲁棒性和合成语音的自然度出发对中英文跨语言语音合成方法展开研究,具体研究工作如下:为了提高使用单语数据训练的跨语言语音合成模型的鲁棒性和合成语音的自然度,本文在Tacotron模型基础上提出了多策略融合的跨语言声学模型CSTacotron。首先,模型的输入被细化为音素编码、语调编码和语言编码三部分,以缩小输入音素空间并实现信息的解耦。其次,在模型的多个位置引入语言编码和说话人编码来更好地建模跨语言文本的局部上下文信息并提高合成语音的音色相似度。接着引入均值对齐损失辅助GMMv2b(Gaussian Mixture Model version2 bias)注意力的训练以提高跨语言语音合成的鲁棒性。最后,为了解决跨语言任务采用“预训练-微调”训练策略时存在的灾难性遗忘问题,首次引入持续学习方法以提高单语种数据微调时的跨语言语音合成效果。实验证明,本文提出的跨语言声学模型相比基线方法在主观和客观评测标准上都有明显的提升。为进一步改善跨语言声学模型合成语音的表现力,本文从韵律角度着手,提出了基于图神经网络的跨语言语音合成方法。从中英文层级韵律中提取层次韵律图,引入图神经网络编码文本的韵律信息,可以更好地建模局部上下文信息。本文对比了两种引入图神经网络的方式:图辅助编码器和基于图增强编码器的GCS-Tacotron。实验证明,所提出的基于图的韵律建模方式一定程度上提高了合成语音的自然度,更好地建模了语言切换时的韵律停顿。其中,GCS-Tacotron不仅提高了合成语音的自然度,而且将模型训练收敛速度提升了1.5倍。
其他文献
研究以计划行为理论为理论视角,基于H省754份应届大学毕业生问卷调查数据,探讨了大学生在读期间创业意向动态变化的基本情况、影响因素及其作用机制。研究发现,大学生在读期间创业意向水平整体不高,但呈现逐年升高的变化趋势。创业榜样、个性特质、创业态度和知觉行为控制直接影响大学生在读期间创业意向;创业政策、创业榜样和创业教育通过创业态度与知觉行为控制两个中介变量间接影响大学生创业意向;个性特质仅通过创业态
期刊
针对物体的三维重建是计算机视觉中的重要课题之一,一直以来都备受研究人员的关注。随着深度学习技术的不断发展,研究者们开始从多视图几何的三维重建方法转向了基于深度学习的三维重建方法。特别是是隐式函数表示在三维重建方法中取得的成果,更是表现出了巨大的发展潜力。隐式函数表示的三维重建方法学习物体表面隐式表示的连续场,通过预测三维空间中的任意点是否位于物体的内侧。因此,复杂的重建问题得以转换为简单的分类问题
学位
近年来人工智能不断发展,在非完备信息博弈领域中的应用逐渐深入。而证券投资市场信息海量、场景复杂,适用于人工智能的应用场景。证券投资中一个必不可少的要点是理性投资,其中一个关键的环节就是科学地对投资者进行评测诊断。科学的评测诊断方法不仅要考虑投资者自身的投资策略,还需要考虑外部市场环境和金融事件。为了验证金融事件对投资结果的影响,不仅需要从金融新闻文本中抽取相关事件信息,还需要分析事件对证券价格的影
学位
近年来,人工智能发展迅速,应用领域越来越广泛。在人工智能的众多应用领域中,金融领域是人们关注的焦点之一,因此人工智能与金融相结合衍生的交叉学科-智慧金融得以迅速发展。智慧金融研究方向众多,其中如何通过人工智能技术给予投资者个性化的金融服务凭借其广阔的应用前景脱颖而出成为大家研究的热点。如今的市场上个性化金融服务种类繁多,其中如何选择股票是投资者尤其是新手投资者在投资时最为关心的一项。基于以上背景,
学位
研究目的:颅内动脉瘤好发于血管分叉处,提示颅内动脉瘤的发生与血管形态密切相关。本研究通过探讨大脑中动脉(Middle Cerebral Artery,MCA)分叉处形态学相关参数与动脉瘤发生的关系,从而寻找分叉处动脉瘤发生的高危因素,为后期对高风险患者进行动脉瘤筛查及预测提供理论依据。研究方法:本研究回顾性分析了我院2018年1月至2020年12月期间的60例大脑中动脉分叉动脉瘤患者,并选择60例
学位
目的:评估肝细胞肝癌(HCC)微血管侵犯(MVI)的临床指标及CT影像征象,并建立预测发生MVI风险的列线图模型。方法:回顾性分析160例经术后病理证实为HCC患者的CT影像特征及临床资料,并与病理结果进行对照分析,筛选出MVI相关的预测因素,应用列线图构建评分模型,并评估模型的预测能力。结果:筛选出肿瘤直径、肿瘤形态及低密度环征3个危险因素,并应用列线图构建评分模型。列线图模型的C-index=
学位
目的:应用左室压力—应变环(LV–PSL)评估左室射血分数(LVEF)减低的急性ST段抬高型心肌梗死(STEMI)患者心肌做功变化,并探讨早期心肌做功参数在预测左室收缩功能变化中的临床价值,以期为临床诊疗、预后评估提供新的依据。方法:选取2020年3月—2020年12月在我院因初发急性STEMI行PCI治疗后左室射血分数(LVEF)减低的患者62例。记录所有患者住院期间的基本临床资料,包括:人口学
学位
目的旨在建立预测甲状腺微小乳头状癌(PTMC)侵袭性的超声联合基因风险预测模型,为主动监测PTMC提供理论依据。方法选取2017年10月至2021年1月264例行手术治疗并经术后病理诊断为PTMC的患者。将2017年10月至2019年4月收集的154例纳入模型组,2019年5月至2021年1月收集的110例纳入验证组。分析模型组154例经术后病理证实为PTMC患者的临床资料、超声特征及BRAF V
学位
研究目的研究人组织激肽释放酶结合蛋白(Kallistatin)及高迁移率组框蛋白1(High mobility group-1,HMGB-1)在间质性肺疾病(Interstitial lung disease,ILD)之中的诊断价值及临床意义。研究方法选取2021年4月-2021年7月在安徽医科大学第二附属医院就诊经高分辨率CT(High-resolution computerised tomog
学位
目的1.探讨不同B7-H3表达水平肺腺癌患者对EGFR-TKI靶向治疗应答率的影响2.探讨共信号分子B7-H3与肺腺癌(EGFR-TKI)靶向治疗继发性耐药的相关性方法1.采用免疫组化方法检测56例肺腺癌组织B7-H3表达,将其分为低表达和高表达两个水平,并分析了B7-H3高/低表达与一线抗EGFR治疗的临床结局之间的关系。分析的主要标准为总缓解率(ORR)、疾病控制率(DCR)和无进展生存期(P
学位