论文部分内容阅读
语音合成的任务是将文字的输入自动转换成语音的输出。它在公共信息咨询与发布、语音应答、电子邮件中的语音服务、文稿校对、自动口语翻译以及残疾人语音辅助等许多方面有很广泛的应用前景。
可懂度和自然度是衡量语音合成质量的主要指标。合成高可懂度、高自然度的语音,一直是语音合成所追求的目标。现阶段合成语音的可懂度已经达到了较高的水平,但自然度还不够理想。主要问题是节奏感较差,缺少轻重缓急和抑扬顿挫。因此,实现恰当的韵律切分,正确地把握话语的韵律结构,是加强合成语音节奏感、提高其自然度的关键,具有重要的意义。
本论文的工作围绕韵律结构这一影响合成语音自然度的关键问题,从以下两个方面展开:
(1)基于文本的韵律边界预测
(a)基于二叉树结构的韵律边界预测模型
针对人工韵律标注大规模训练语料的困难和不足,本文首先对汉语书面语中的标点符号和有声语言中的语音停顿进行了比较和分析;并在此基础上,提出利用汉语文本中的标点符号位置模拟韵律结构的边界,并使用词和词之间出现标点的可能性大小估计该位置作为韵律边界和出现语音停顿的概率。其次,根据句子各个语法词边界作为韵律边界的概率估计值大小,并采用树结构生成算法,为句子建立二叉树形结构;最后,依据二叉树结构并结合韵律学知识,分别提出了基于二叉树结构的韵律词边界预测模型和韵律短语边界预测模型。
(b)应用基于二叉树结构的路径裁剪策略的韵律词识别模型
在对树结构与韵律结构进行对比分析的过程中,本文发现:韵律词在树结构中往往表现为一种完整子树的形式,且两者的一致性很高。利用这一特征,本文提出了一种二叉树结构与最大熵模型相结合的韵律词识别方法。即在利用最大熵模型进行韵律词识别的解码过程中,引入基于二叉树结构的路径裁剪策略,对搜索空间中的候选路径进行裁剪。实验结果显示,这种裁剪策略不仅大大缩小了搜索空间,提高了系统运行效率,更关键的是它使得模型的韵律词识别效果有了大幅的提高。
(2)基于语音的韵律边界识别
在语音合成和语音识别领域,韵律标注工作需要耗费大量的人力,减少手工劳动对于语音合成中语料库的韵律标注以及语音识别中韵律单元的自动划分都有重要意义。针对这个问题,本文讨论了一种结合语音韵律特征、二叉树特征、其它语言学特征,基于真实语音进行韵律短语间停顿自动检测和识别的方法。本文分别利用分类回归树和最大熵两种方法建立了识别模型,并取得了较好的停顿识别效果。
论文主要的创新性成果如下:
(1)提出了使用汉语书面语中的标点符号位置模拟韵律边界的思想和方法。即使用句子内部各个语法词边界邻接标点符号的可能性大小估计该位置作为韵律边界的概率。基于这一思想,能够避免人工标注大规模训练语料的困难。
(2)提出了基于二叉树结构的汉语韵律边界预测模型。依据任意汉语句子内部各个语法词边界作为韵律边界的概率估计值大小,将其表示成二叉树形结构;利用二叉树结构并结合韵律学知识,实现韵律词和韵律短语边界的自动预测。
(3)发现了韵律单元在二叉树结构中的表现形式。通过韵律结构与树结构的对比,本文发现韵律词和韵律短语在其所在句子的二叉树结构中,往往表现为一种完整的子树的形式;而且,其中韵律词和子树的一致性非常高。
(4)提出了应用基于二叉树特征的路径裁剪策略的韵律词识别模型。利用韵律词与完整子树之间的高同构性,依据二叉树结构对模型解码搜索空间中的候选路径进行裁剪,然后使用最大熵模型求解最优路径作为识别结果,从而改进和提高模型的韵律词识别性能。