藏语统计参数语音合成的合成语音的音质评测

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:am1047973925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计参数语音合成为了语音合成领域的主流合成方法,该方法能够利用有限的训练语料合成出不同说话人、不同风格和不同情感的语音,具有容易改变合成语音的音质、模型占用存储空间小等优点。论文以藏语的统计参数语音合成的合成语音质量的评测为研究目标,提出了一种面向藏语统计参数语音合成的语音基元自动标注方法,考察了不同基元、不同时间标注对藏语统计参数藏语合成系统合成的语音音质的影响,同时引入说话人识别方法对合成语音和源说话人的语音的相似程度进行了评测。论文的主要工作与创新如下:1.提出了一种面向藏语统计参数语音合成的语音基元自动标注方法。在基于隐Markov模型(Hidden Markov Model,HMM)的藏语统计参数语音合成的声学模型训练中,引入了DAEM(Deterministic Annealing Expectation Maximization)算法,对没有时间标注的藏语训练语音进行自动时间标注。以声母和韵母为合成基元,在声母和韵母的声学模型的训练过程中,利用DAEM算法确定HMM模型的嵌入式重估的最佳参数。训练好声学模型后,再利用强制对齐自动获得声母和韵母的时间标注。实验结果表明,该方法对声母和韵母的时间标注接近手工标注的结果。2.考察了不同语音基元和不同的基元时间标注对藏语合成语音音质的影响。分别利用自动标注了时间边界和手工标注了时间边界的藏语语料库训练声学模型,实现基于HMM的藏语统计参数语音合成系统。在此基础上,分别考察了以声、韵母为合成基元和以音节为合成基元对合成语音音质的影响。同时也考察了手工时间标注和自动时间标注对合成语音音质的影响。结果表明,在训练语料少时,两种不同基元合成的藏语语音音质都比较差。随着训练语料的增加,两种不同基元合成的藏语语音音质都在提高。最终在一定训练语料情况下,两种不同基元可以合成语音音质近似的语音。同时,以音节为基元时用自动标注时间的训练语料合成的藏语语音与用手工标注时间的训练语料合成的藏语语音音质还有一定的差距。3.提出了一种利用说话人识别方法评测合成语音与目标说话人的相似程度的方法。采用经验模态分解法(Empirical Mode Decomposition,EMD)和短时分析相结合的说话人识别方法对合成语音进行说话人识别,通过识别结果判断合成语音与目标说话人的相似程度。结果表明,合成的藏语语音与目标说人具有较高的相似程度。
其他文献
本文先对感应电流的基本概念进行简述,然后在电路闭合和磁通量变化相关基础上,对感应电流产生的条件进行详细阐述.
探究小学高年级学生数学自主学习能力的培养策略已经成为重要的教育研究课题.而基于对大部分教师的教学研究成果的分析,如何在枯燥乏味的课堂教学过程中融入多样化的教学活动
如何将思想政治教育与高职公共英语在课堂上有机融合,有效解决英语教学信息化过程中出现的母语文化缺失、思想教育缺位现象,促进学生全面发展,这是新时代对高职英语教学提出
会计属于一类实践性和技术性都非常强的工作,若想在企业之中做好会计工作,不仅需要具备扎实的理论基础,并且需要有较强的实践能力.然而,当前许多技校在开展会计专业教学的过
正交频分复用技术(Orthogonal Frequency Division Multiplexing,OFDM)是一种多载波调制技术,因其具有抗多径干扰、频谱利用率高、易于实现等优点而受到广泛应用。但因其对频
近年来,第三代半导体材料GaN以其禁带宽度大、饱和漂移速度高、临界击穿电场高和热导率高等独特的优势,成为最令人瞩目的新型半导体材料之一。各项研究表明,GaN HEMT微波内匹
随着国家经济的飞速发展,智能手机已经走进了平常百姓的家庭,也成为了当代高职学生的标配之一,智能手机的功能也越来越强大,同时伴随着互联网技术的飞速发展,对高职院校思政