论文部分内容阅读
视线是指人的眼睛注视方向,通常代表了人所关注的焦点。视线信息能辅助机器理解人类行为、意图和人物的所在环境。视线估计在人机交互、注意力分析和视频监控等方面有巨大的应用价值。目前主要有基于表观(appearance-based)和基于模型(model-based)两种方法。基于模型的方法,因为需要复杂的设备(一个或多个的摄像头和红外光源),所以没有广泛地应用。而近些年来,随着机器学习,特别是深度学习的突破,基于表观的方法因为具有设备简单(只需要一个摄像头)、应用范围广泛等特点逐渐成为研究的主流。针对传统表观视线估计方法准确率较低且无法处理背脸图像的问题,提出了基于姿态分析和显著目标检测的表观视线估计方法,并构建了一个对应的视线估计系统。首先,根据人脸检测的结果将人脸分为正/侧脸和背脸两种情况。在正/侧脸时,假设头部方向与视线方向一致,使用头部姿态估计进行视线估计。传统的头部姿态估计需要使用人脸关键点检测,然后通过解PnP问题得到头部姿态。因为这类方法对人脸关键点的位置比较敏感,所以鲁棒性不强。于是采用了一种基于深度学习的端到端的头部姿态估计方法。这种方法在头部姿态变化大,遮挡面积大,图像清晰度不高的情况下,仍然能进行头部姿态估计。提出通过使用目标检测选取与视线相交的物体中心位置修正视线方向。通过在一定的视线范围内搜索目标解决一些小物体可能不与视线相交的问题。通过设置一定的修正阈值解决一些较大的物体中心位置可能偏离视线过大的问题。实验表明在GazeFollow数据集上视线误差降低了2.5度。在背脸时,由于人脸不可见,难以进行头部姿态估计。于是提出了结合人体姿态信息估计视线方向。设计了一个包含显著目标检测分支、头部姿态估计分支和人体姿态估计分支的深度卷积神经网络估计视线方向。三个分支的特征图最后通过点乘给出注视点位置的预测,注视点位置与头部中心位置的连线作为视线方向。提出在头部姿态估计分支中,使用将头部特征图与头部位置进行卷积的方法,将头部特征图的中心位置移动到在整个图像中头部所处的位置,从而使得后面的点乘操作更加有效。采用了一个空间平滑的交叉熵作为损失函数,具有当预测位置偏离越大时,损失越大的特点,使得网络容易训练。实验表明在GazeFollow数据集上误差降低了1度。