论文部分内容阅读
随着语音合成应用的普及,人们对合成语音的音质和自然度提出了更高的要求。越南语是越南的官方语言,属于南亚语系孟—高棉语族。越南语类似于汉语普通话,也采用“声、韵、调”标记其音节。本文以开发越南语文语转换(TTS)应用系统为目的,研究越南语语音合成,探索提高音质和自然度的途径。根据越南语的特点,本文选用声母和韵母为合成基元,并采用左、右相关的三音子模型。一个完整的TTS系统包括前端文本分析模块和后端语音合成模块。在前端文本分析方面,本文研究越南语的分词、词性标注、特殊符号处理和韵律短语(L3)边界预测等关键技术。在后端语音合成方面,本文研究越南语训练语料的收集、标注,以及合成器的训练等。学位论文的主要工作包括:1.构建越南语的TTS基线系统,包括文本收集和录音、确定音素列表、标注、上下文属性和问题集设计、训练HMM合成器等。根据系统测试和评测的结果,从标注、上下文属性和问题集三个方面对初步构建的合成器进行了改进。2.采用正向最大匹配法(FMM)和逆向最大匹配法(BMM)相结合的分词方法实现自动分词工作。提出了越南语词性标注方案,拟采用基于统计语言模型的方法实现词性自动标注。对越南语文本中出现的特殊符号进行标准化处理,包括文本中的阿拉伯数字、数学符号、国际物理量和货币单位、缩略语等。3.采用C4.5决策树算法实现越南语L3边界的自动预测工作,包括属性信息提取、模型训练和L3边界自动标注,并对自动标注结果进行了主客观评测。实验结果表明:(1)采用本文方案改进后的合成系统,其合成语音的主观评测得分(MOS)分别为:集内3.89,集外3.55,说明改进效果明显。(2)使用论文中所述方法实现越南语自动分词和特殊符号处理具有实用性和可行性。(3)采用本文所述方法预测L3边界,集内外测试的F-Score值分别为60.73%和57.96%,主观评测其可接受率分别为72.3%和69.0%。该方法用于越南语L3边界的预测可满足语音合成系统的初步应用,且为进一步提高越南语语音合成的自然度奠定了基础。