论文部分内容阅读
多语种的语音合成研究是近期国内外语音合成研究的一个热点.在语音合成所涉及的一系列关键技术中,如何尽量避免使用语种相关的研究方法,是多语种语音合成研究中的一个重点和难点.该文以完成一个具有实用化水平的中英文合成系统为目标,对多语种语音合成所涉及的一系列关键技术进行了深入研究.韵律预测是语音合成中最重要的部分,它主要是指通过从文本分析中得到的信息,来预测这段文本的基频、时长、能量等超音段特征参数.超音段特征(尤其是基频参数)对合成语音的自然度影响非常大.该文提出了一种基于诀策树和贝叶斯分类器的组合预测模型.首先将所有的基频样本分成不同类别、并通过每个基频样本的韵律环境参数建立基频决策树模型.然后以韵律环境参数作为决策树模型的输入,判诀每个音节所对应的一组可能的基频类别和相应的概率;另外,根据对自然语音中相邻音节基频连接特性的分析,抽取出一种可以描述相邻音节的基频连接状态的概率.最后通过一个组合模型,将决策树产生的基频类别及其相应的概率与描述基频连接状态的概率联系起来,共同决策输入文本中每个音节的基频.和传统的基频预测模型不同的是,这种组合基频预测模型不是分别孤立的去分析单独音节的基频,而是以一个独立的韵律单位(如韵律短语)为分析对象,使得最终预测的基频具有更高的精确性和可信度.