论文部分内容阅读
从视频中自动提取并跟踪人脸表情具有重要的科研意义和广泛的应用价值。人脸和表情是婴儿出生后需要首先辨识的视觉模式,因此研究人脸表情的自动提取技术对于理解人类视觉系统的原理具有重要的指导意义。表情的自动提取和跟踪技术还是基于视频的表情动画,人脸识别和表情分析系统的基础。其中基于视频的表情动画系统可以从视频中捕捉真人表情并驱动虚拟人脸做相似的表情,这对数字娱乐和影视特技行业具有广泛的应用价值;人脸识别系统是一种重要的智能安检手段,在反恐保安领域获得了日益广泛的应用;表情分析系统可以让计算机感知用户的情绪并提供智能化的服务。本文研究对于神经科学、数字娱乐、反恐保安和智能人机交互具有重要的意义。视频中的表情变化一般是通过定位和跟踪人脸特征点来捕捉的。但由于人脸表情和头部姿态的变化,很难对特征点的形态进行准确建模;此外视频中的光照不均匀且人脸上往往还有眼镜和胡子等遮挡物,因此小小的特征点很容易淹没在这些干扰中而不易被检测到。已有的特征点定位和跟踪技术需要诸多限制条件,比如均匀的光照、正面人脸等,这些限制条件使得相关技术难以在实际中得到应用。本文的研究目标就是提高人脸特征点定位与跟踪方法的效率和鲁棒性,并快速准确地提取人脸表情。本文工作的创新点总结如下:1、提出了一种鲁棒的人脸特征点定位方法传统的积分投影法只能对均匀光照条件下的正面无偏转人脸进行特征点定位。本文提出了人脸特征点定位的定向投影法,它能够对姿态变化的人脸实施特征点定位。其中包括两项主要创新:1)设计了一种基于主元分析的人脸姿态估计算法,通过对偏转人脸进行姿态估计和校正,使积分投影法得以应用到头部有平面内偏转的情况;2)提出了噪声投影峰识别方法,通过鉴别并剔除噪声投影峰,提高了积分投影法对光照条件的容忍度。2、提出了两种人脸检测和特征点定位融合方法人脸检测和特征点定位一直被认为是两个彼此独立的研究课题。因为前者的研究对象是人脸,而后者的对象是面部特征点,它们在尺度、数目和形态上差别很大。因此已有的人脸检测和特征点定位方法分别采用不同的计算模型,运算过程中也没有交集和合作。针对这一问题本文分别提出了两种人脸检测和特征点定位融合方法。应用这两种方法,人脸检测和特征点定位不再是彼此独立的,而是共享同一组输入特征,使计算效率得到提高。另一方面这种融合技术与视觉神经的运作机制具有一定的相似性。在大脑中存在向前传递和向后映射两条视觉神经通道,其中向前传递通道能够快速检测识别对象,其功能类似人脸检测算法;向后映射通道能够鉴别物体细节,其功能类似人脸特征点定位算法。这两个视觉神经通道都建立在V1/V2视觉皮层信号基础上,因此它们之间的合作关系很类似在我们混合算法中的人脸检测和特征点定位间的关系。所以本文提出的算法为这两条视觉神经通道提供了可行的计算模型。3、提出了一种平滑有约束的表情跟踪技术表情跟踪结果通常不够平滑伴有小幅频繁的抖动。这是因为在表情跟踪中需要对很多参数进行优化计算,比如头部在三维空间的平移和旋转参数,嘴巴、眼睛和眉毛的运动参数。在高维参数空间内进行计算会遇到“维度灾难”问题,即计算复杂度随着维度的增加呈指数级递增。针对这一问题,本文在提出了一种新的表情跟踪技术,它能够实现平滑的表情跟踪而且通过对跟踪结果进行约束,提高了跟踪精度。其中的创新点:1)通过非线性降维减少了计算复杂度;2)对头部姿态和人脸表情分别采用不同的策略进行跟踪,并且通过加入先验约束来降低跟踪误差。4、提出了一种能够进行错误矫正的表情跟踪方法提出了一种能够进行错误检测和矫正的表情跟踪方法,我们称其为“隧道隐变量法”。它建立在第6章所述方法的基础上,创新点:1)通过对隐变量分布进行聚类分析把隐变量空间分割成若干跳转候选区域。2)建立了跟踪误差与跳转候选区域的概率模型,这个概论模型可以帮助我们确定合适的采样区域3)在跟踪过程中若发现误差持续超过某一阈值,就根据上述概率模型选择跳转区域,进行有侧重的大跨度采样,然后选择误差最小的子区域中进行后续的跟踪。这个方法仿佛在隐变量空间的不同地点挖通了“隧道”,使跟踪变量可以瞬时迁移和跳转,进而克服了跟踪中的局部收敛问题并实现了错误的检测和矫正。综上所述,本文针对从视频中提取并跟踪人脸表情开展研究,研究内容涵盖了人脸特征点的定位和跟踪技术。应用本文提出的创新技术我们开发了一套基于视频的表情动画系统,该系统能以近实时的速度从视频中提取真人表情并合成三维虚拟人脸表情动画。