论文部分内容阅读
科技在进步,时代在发展,在这个“读图”和“听音”的时代,语音技术深入到人们生活的各方各面,让机器说话已不是幻想。然而,目前语音合成的质量仍不是很高,主要表现在:合成的语音自然度低、节奏感差,所以,语音合成自然度的进一步提高是目前亟待解决的问题。本文的研究工作主要针对汉语韵律结构中的韵律短语识别展开。韵律结构是以句法结构为基础的。通过对大量语料的分析可以看出,韵律结构和句法结构之间存在着一定的联系。由于语块本身可以反映出一定的句法信息,且人们在朗读或说话时往往是以语块为基本单位的,语块的切分可以把句法上相关的词进行整合,所以本文提出将语块结构这种非递归嵌套的浅层句法结构应用于韵律短语的预测。本文的主要工作包括以下几个方面:(1)语块的定义及获取目前对韵律层级的划分所使用的特征多为词、词性和词长。基于这些特征的局限性和韵律结构与句法信息之间的紧密联系,在对汉语语块结构与韵律结构之间的关系进行比较研究的基础上,本文定义了8种适用于韵律短语边界识别的语块类型,并归纳总结了语块的处理规则,通过语块之间结合紧密度的度量,实现了语块的归并,生成了最终的语块结构。(2)基于语块和条件随机场的韵律短语识别本文将语块结构这种非递归嵌套的浅层句法结构应用于韵律短语的预测,提出了一种基于语块信息,并利用条件随机场CRFs对韵律短语进行识别的方法。首先基于语块结构抽取、选择模型特征,然后利用CRFs训练构建模型用于韵律短语的识别。(3)基于语块和AdaBoost-SVM集成算法的韵律短语识别由于寻找一种较强的分类算法用于韵律短语的识别较为困难,基于强、弱学习算法的等价性问题,利用集成学习方法能够使多个准确率略高于随机猜测弱分类器进行加权融合,形成一个强学习算法,达到比强分类器更好的分类效果,所以,本文使用AdaBoost集成学习算法,以SVM作为基分类器,通过对训练语料多次随机抽取,经过多次训练更改权重,训练生成多个基分类器,最终将这几个基分类器进行加权投票的方法集成,形成一个新的强分类器完成对韵律短语的预测。本文分别使用CRFs、CRFs+语块、SVM、SVM+语块、AdaBoost-SVM+语块的方法实现了韵律短语边界的识别模型,并将各个模型的性能进行了对比,重点考察了使用语块信息与否时的模型性能。实验结果显示,在各种不同的方法下,引入语块结构后,模型的性能均比之前有了较为明显的提升。这就证明,语块信息能够在韵律结构的识别研究中得到应用并做出积极有效的贡献。