论文部分内容阅读
真实感三维人脸表情口型动画研究一直是语音可视化建模一个重要的研究方向。特别是随着互联网技术以及数据处理技术的发展,如何拉近人与虚拟人之间的距离,让虚拟人的行为与思想更加人性化,提升人与虚拟人交互的友好性是计算机科学一个重要的发展方向。在真实人脸建模已经取得很多的研究成果的基础上,如何实现语音信息与人脸口型动画协同发音成为一个急需解决的难题。真实感人脸口型动画与语音可视化建模技术的研究主要存在以下几个问题:第一,在真实感人脸建模的过程中,一般只考虑人脸面部区域的建模,建模的过程中很少会对嘴部与眼部进行细节建模,由此建立的模型不足以表达嘴部说话时复杂的运动效果。第二,嘴部口型动画合成的研究中,通过建立肌肉模型合成嘴部动画是一种常见的方法。肌肉建模过程中,需要为每条肌肉建立相应的肌肉运动控制参数,而嘴部附近肌肉众多,所以存在控制参数过多的问题,而嘴部的口型动画是肌肉协同运动的效果,不容易区分每条肌肉的控制权重,不容易获取肌肉的控制参数。基于嘴部运动分解合成嘴部动画是一种相对简单的方法,但研究人员很少考虑子运动之间内在的联系,存在子运动划分过于仔细,子运动的运动效果存在重叠等问题。第三,在协同发音现象建模过程中,通常只考虑音素在音节内部的相互影响关系,很少考虑音节间的相互影响,特别是元音音节间相互影响关系。针对上面存在的问题,本文建立了一个基于标准Candide-3模型细化之后的人脸网格模型,通过单幅照片合成真实人脸模型;然后通过分析肌肉的运动特性与肌肉子运动之间的内在联系,建立了一个基于运动分解的嘴部运动控制模型,实现了说话时基本口型的运动变化控制;最后从中文拼音的构成结构入手,分析中文音素间协同发音现象;建立音节内部辅音视觉影响权重函数,对于元音建立音节内部与音节间的视觉权重函数。通过建立的视觉权重函数来描述音素之间发音口型相互影响程度。最后实现了真实人脸口型动画与语音的同步。实验分析表明本文方法提出的真实感人脸口型动画更加接近真实发音口型的变化特征。