论文部分内容阅读
人机情感接口:人脸表情运动参数跟踪提取、参数传输并合成具有真实感的语音同步人脸动画以及表情识别,是当今计算机视觉和图形学领域的一个热点问题,它在人机交互、视频编码、娱乐和虚拟现实等方面有着非常多的应用。本文面向的一个重要领域是极低比特率下模型基人脸视频编解码系统。在过去的三十年中,相关领域取得了长足的发展与进步,但仍存在许多问题亟待解决。其中,如何快速获得准确的人脸运动参数,如何以更适合人脸这一特定对象的方式来传输参数,如何获得具有高真实感的语音同步人脸动画,如何获得高识别率的表情识别结果是一个富于挑战性的课题。本课题涉及计算机视觉中的运动分析,信道编码,人脸的运动学和动力学建模和表示、协同发音机制的建模以及文本驱动下的人脸动画、模式识别等诸问题。
面向模型基人脸视频编解码领域,本文从以下几个方面对人脸表情运动参数跟踪提取、参数传输并合成具有真实感的语音同步人脸动画以及表情识别这一富于挑战性的研究课题进行了重点研究。
首先,提出了一种基于单幅图像的初始帧特定人脸自动适配方法。首先对于编码端发送视频的首帧图像,利用Adaboost+Camshift+AAM(Active appearance model)算法来检测人脸和定位特征点,接着特定化一个简洁人脸通用网格模型以得到人脸构造参数(FDP:Facial definition parameter);对于得到的FDP,解码端用来特定化一个精细人脸通用网格模型。
其次,提出了一种基于在线模型匹配与更新的人脸三维表情运动跟踪算法。利用自适应的统计观测模型来建立在线模型,自适应的状态转移模型结合改进的粒子滤波来同时进行确定性搜索和随机化搜索,并且融合目标的多种测量信息来减少光照影响和个人相关性。从而既可以得到全局刚体运动参数,又可以得到局部非刚体表情运动参数。
再次,对于人脸视频中的每一帧,首先提出了一种静态人脸表情识别算法,人脸表情运动参数被提取出来后,根据表情生理知识来分类表情;接着,为了应对知识的不足,提出了一种静态表情识别和动态表情识别相结合的算法,以基于多类表情马尔可夫链和粒子滤波的统计框架结合表情生理知识来同时提取人脸表情运动和识别表情。
接着,提出了一种面向MPEG-4人脸表情运动参数(FAP:Facial animation parameter)的压缩算法。基于面部动作单元(Action Unit)可以表示人脸表情运动的思想以及同一帧内人脸表情运动参数的相关性(由于人脸运动受限于肌肉和皮肤),利用面部运动基函数(FBF)来组合FAP,从而可以结合帧间编码和帧内编码的方法来降低码率,且无编码延迟。
此外,提出了一种基于MPEG-4的三维人脸表情动画算法。采用参数模型和肌肉模型相结合的方式来生成人脸动画;同时对人脸功能区进行划分。实验证明了该算法在FAP流的驱动下可以生成真实感较强的三维人脸表情动画。
最后,在对协同发音现象建模后,生成与英语音素对应的人脸视素动作,在视素之间的动画由非均匀有理B样条函数插值生成,并且可以混合表情动作;语音合成采用MS-TTS,根据文本得到的音素信息和持续时间信息,结合视素来生成英语语音同步的人脸动画。
在前述研究的基础上,设计并实现了一个人脸表情运动参数跟踪提取、参数传输并合成具有真实感的语音同步人脸动画以及表情识别的演示系统。该演示系统在编码端可根据输入的视频提取人脸表情运动参数,进行表情识别并编码传输该参数,解码端根据解码后的参数来合成具有真实感的人脸动画,且解码端可根据英语文本来合成语音同步的人脸动画。