论文部分内容阅读
在英文语音合成中,韵律是影响合成质量的一个重要因素,在合成中要使用韵律,首先要在语料库中有正确的韵律标注,而韵律标注中的一个很重要环节就是重音标注。在以往的重音标注中,所有的语料库都是采用人工标注。在语音合成的研究中,大规模和超大规模语料库的出现使得人工标注消耗的时间和人力成本成为制约其发展的一大障碍,而且标注者之间的个体标注差异会影响最后的合成质量。
在语音识别技术的发展基础上,更稳定和高效的机器自动标注系统已经越来越接近手工标注的正确率。如何提高标注系统的效率,如何简化标注系统的搭建过程,并充分利用当前语音识别技术的研究成果,是韵律研究领域的一系列课题。
在这篇论文中,提出了一种可以完全脱离手工标注数据的英文重音检测系统。在语言学重音预测的基础上,综合声学特征和统计信息对结果进行优化。系统声学部分基于剑桥大学语音实验室的HTK工具集,使用扩展的音素集和HLDA优化。
在完全没有手工标注数据参与训练的情况下达到了93.18%的检测正确率,在加入少量手工标注数据的情况下,将正确率提高到了93.91%。
由于这篇论文的研究目标是快速建立用于语音合成的语料库信息系统,所用的方法、数据具有普遍适应性,容易在其他数据库上使用,对于今后的语音合成后端自动标注系统有一定的参考意义。