论文部分内容阅读
随着智能家居和智能设备的普及发展,在人们的日常生活中人与设备之间的信息交互将会变得越来越频繁。特别随着计算机和人工智能的发展,更加符合人类交流方式的无接触式人机交互技术研究领域将会变得日趋活跃。这些研究领域包括了眼球跟踪技术、语音识别技术、人脸面部表情识别技术、唇语识别技术、人脸识别技术、手势识别技术和身体姿势识别技术等等。由于手势信息量丰富并且交互运动具有自然舒适无约束的特点,所以手势交互技术是未来人机交互领域的重要研究方向。由于人手体积较小,移动速度和方向变化快,手指的自由度非常高,各个手指之间具有极强的外观相似性并且非常容易相互遮挡,因此如何基于视觉快速精确地估计出人手三维关键点是一个非常具有挑战性的研究课题。针对复杂高维度的手势空间和大视角高遮挡的情形,本文基于"分而治之"的思想提出了一种分类指导回归的手势三维关键点估计方法。该方法将一个困难复杂的手势回归任务划分成多个相对更容易的子任务,对每一个子任务学习一个其专属的回归模型,从而避免了仅靠单一模型无法很好地处理所有情况的问题。首先离线训练一个以深度图作为输入的深度卷积神经网络分类器GoogLeNet。不同于之前手势分类器是按照相机视角不同来划分类别,本文的分类器是按照刚性对齐的手势不同来划分类别。对于手势分类器所能预测的所有类别,分别离线训练一个对应于类别的级联随机森林回归器。在测试阶段,输入深度图到手势分类器直接预测出一个手势类别,然后再次把深度图送入预测类别对应的级联随机森林回归器,最终输出相机坐标系下的人手关键点三维坐标。密集丰富的实验验证了本文提出的分类指导回归算法的高效性和有效性。从定性角度来看,本文分类指导回归算法大幅度地领先于全体样本整体回归算法。与其他的优秀算法相比较来看,本文分类指导回归算法依然能够在大多数最大允许误差阈值区间内领先于其他优秀算法。从定性角度来看,本文方法不但能够处理好复杂的大角度高遮挡的手势情形,同时还能保持很高的帧率,完全能够满足实时精确的应用场景。