论文部分内容阅读
科技在进步,时代在发展。在这个"读图"和"听音"的时代,语音技术已不再陌生,让机器开口"说话"也不再是幻想。目前,语音合成的清晰度已达到人们的要求,流畅度却尚待提高,合成的语音自然度低、节奏感差。因此,提升语音合成的流畅度是当前亟待解决的问题。在语音合成技术的文本信息处理中,韵律短语的划分对语音合成的流畅度有着至关重要的影响。目前韵律结构预测方面的研究绝大多数采用人工标注韵律结构的语料,即人工标注语料,这种语料通常篇幅较小,若想扩大其规模又会受到诸多限制。因此,本文工作主要针对当前获取大规模的人工标注语料所面临的困难和问题而展开,研究采用无标注语料进行韵律结构预测的方法。利用标点符号能表示停顿的性质,本文提出一种采用无标注语料和词"粘连"剔除策略的韵律短语识别方法。本文工作可分为下列几个方面:(1)标点符号的等级划分与无标注语料的获取基于用标点符号模拟韵律标志的思想,利用标点符号能表示停顿且停顿时间长短不同、差异较大的性质,本文提出应该将标点符号划分为不同的等级区别对待,并赋予每一等级不同的权重。通过反复试验,我们获取了标点符号的最佳等级划分方法及各级的最优参数分配》之后,基于多级标点符号获得大规模的无人工标注韵律标志的语料,即无标注语料。(2)基于互信息的语法词"粘连"互信息在自然语言处理中被描述为衡量两个类或词之间相关程度的尺度。本文基于大规模无标注语料库(仅做了自动分词和词性标注处理),利用互信息对任意两个词性标记的邻接情况进行了统计和度量,并据此将联系较为紧密的语法词对“粘连"起来,形成"粘连单元"。本文认为"粘连单元"内的语法词结合相对紧密,其中出现韵律短语边界的可能性较小,应忽略不计。(3)基于最大熵模型及词"粘连"剔除策略的韵律短语自动识别首先,基于大规模的无标注语料构建用于韵律短语自动预测的最大熵模型;通过对人工标注语料的分析和统计,为基于句长的Top-K方法确定参数K的取值。其次,对待识别语料进行子句分割,利用构建的最大熵模型,结合Top-K方法,实现了韵律短语的初步预测。最后,基于"粘连"词性对集和"粘连"算法,对待识别语料进行"粘连"处理和标注,并依据标注结果,对韵律短语初始预测结果进行噪声剔除,获得最终的韵律短语识别结果。