论文部分内容阅读
合成真实准确的可视语音动画一直是虚拟人领域一个艰难而有趣的研究方向。它在增强嘈杂环境下的语言可懂度,教育培训,电影甚至医疗方面都有着广泛的应用。通过机器学习的方法,一段可视语音动画可以通过同步捕获的音频和唇动数据来进行驱动。这种方法的好处是动作的韵律信息已经隐含在驱动数据当中,因此使唇动模拟富于变化。在本文的合成系统中,三维口型动画是由一种带有韵律信息的文本来驱动的。由于文本具有灵活、易修改和高压缩比的性质,因此在国际互联网上被广泛应用。但是却很难通过分析普通文本得到音调、音长和强调等轻易能从音频中取得的信息。由于缺乏韵律信息,以往的合成系统效果会显得很呆板。在本文中,设计了一种新的文本驱动的方法来生成三维口型动画。基本思想是:由用户借助一种韵律标记语言给普通文本添加携带韵律信息的标签,而合成系统则将标签转化为控制动画曲线的参数值,从而达到利用韵律信息来合成动画的目的。本文的技术借鉴行为驱动的方法,利用一种新的面向减小合成错误率的方法来生成三维动态视位。在参考已有对韵律研究的基础上,定义了一种汉语韵律标记语言来将普通文本转化为韵律文本。通过分析视频中发音的特征,建立了基于分段指数函数的参数模型,它将已得到的三维动态视位和韵律信息作为输入,输出则为生动的口型动画。实验结果显示:(1)依赖不同的韵律信息,系统可以合成出不同的结果;(2)此技术相对于以往方法可以减少生成动画时所用的数据量。合成真实准确的可视语音动画一直是虚拟人领域一个艰难而有趣的研究方向。面向汉语的三维口型动画的研究具有重要的理论意义和应用价值。能够利用宝贵的网络资源,使其应用的环境不局限于PC机,也包括PDA等移动设备。该技术具有广泛的应用前景,可以用于多种场合,例如:聋哑人教学、网页手语导播等领域,为制作准确的口型动画大大减少手工劳动的负担。