论文部分内容阅读
基于大语料库的拼接合成由于其合成的语音清晰自然,而得到了广泛的应用。由于汉语语音合成中自动切分的精度将直接影响到语料库中基元的质量,进而直接影响到合成出的语音的质量,因此自动切分技术已经成为了汉语语音合成中的一个重要课题。在自动切分技术的研究中,作者详细地调查了自动切分的研究现状。根据研究现状,采取了目前较主流的基于隐马尔科夫模型的强制对齐的方法用于自动切分基线系统的构建中。在自动切分基线系统的构建中,作者提出了一种新的模型参数自适应方法,结果证明可以较大程度地提高自动切分的精度。作者还做了大量的实验来验证相关的语音参数在自动切分中的效果,大多数参数的挑选都被同类论文忽视,但在实际系统中却有着重要的影响。在现有的自动切分技术中,大多数研究都是基于单一模型,上下文相关或上下文无关的模型。采用单一模型内在的问题是每个边界单元只有一个模型预测的时间值,而没有考虑不同的模型对于相同声学环境下的边界的不同的作用。作者在论文中提出了以下两种方法来找到处于类似声学环境下的边界与不同模型之间的映射规则,进一步用映射规则来为每个边界找到最合适的模型。第一,利用混合模型进行汉语语音合成库的自动切分技术。所有的边界单元按照其所处的声学环境被分为十一组。在这些边界组中,将利用混合模型训练得到边界组与声韵母单音子模型(IFMM)、半音节单音子模型(SSMM)。声韵母三音子模型(IFTM)之间的映射规则。第二,使用C4.5决策树分类的算法,来训练处于相似声学环境下的边界与IFMM、SSMM和IFTM之间的映射规则,通过映射规则,为每个边界单元选取最合适的模型预测时间值。在决策树的构建过程中,问题集的选取和属性的挑选至关重要。在论文中,作者给出了自动切分中,选取问题集的方法,并给出了遗传算法和C4.5决策树默认的算法来进行属性挑选。实验结果显示,在切分精度和边界的偏移上,利用混合模型和决策树分类两种方法都取得了比单一模型进行汉语语音合成库的自动切分技术更好的结果。