论文部分内容阅读
基于发音机理的语音合成模型模拟语音生成的发音运动和空气动力学过程。我们尝试构建一个更加精确的发音运动模型来逼近发音器官的形态学特性,从而得到一个更好的发音合成系统。目前有两个主流的建模策略:生理模型和几何模型。本文基于中文数据库构建三维几何发音模型,与神经生理模型相比较,这一几何模型忽略复杂肌肉力的影响。因此,几何发音模型的实时性随着运算量的减少而得到提高,这使得几何发音模型适用于实时性要求比较高的应用。本文提出了一种基于MRI(磁共振成像)和CBCT(锥形束C T)构建三维几何发音模型的新方法,由于磁共振成像技术能够比较清晰地成像出声道发音器官轮廓的形状,并且磁共振成像技术对人体造成的伤害较小,因此越来越多的应用于语音合成研究。由于骨质结构不能在MRI中直接清晰地采集成像,我们采集了CBCT的数据来补充骨质结构的信息,进行上下颚的填补。通过磁共振成像技术采集得到的发音器官的数据库,对于构建出声道模型进而分析不同发音带来的声道发音器官形状的变化规律具有很大的优势。并且以其建立精确的三维声道模型,进一步对发音过程的声道可视化,对于语音教学应用和语音生成机理分析等都具有重要的意义。本文对中文磁共振数据库中一个受试者的104组发音数据进行研究,研究方法具体步骤如下:数据库及其预处理,数据标注以及三维网格建模,数据分析以及验证评价,碰撞检测以及响应。线性成分分析方法结果显示,每个发音器官可以用三个以内参数来很好地进行描述,并且参数控制集的累积贡献率高于80%。用此分析结果对各个发音器官进行重构而得到的均方根误差均小于1.0 mm。本文创新点在于提出了一种新颖的三维声道发音器官建模方法,其中我们考虑了发音器官的生理边界点,建模过程有两个主要的改进,融合不同切片的数据来提升发音器官轮廓的标注精确性以及根据发音器官的解刨结构来建立发音器官的三维网格。这样既保证了发音器官的完整性,又保留了发音器官上生理特征点的对应性。最后,本文构建了基于汉语发音数据的三维几何发音模型,这对于汉语的语音语言教学,汉语普通话的广泛推广,语音的病理纠正等应用提供了理论基础。