论文部分内容阅读
手势交互作为一种自然交互方式,是人机交互领域的重要基础性研究。随着新型体感交互设备的普及与最优估计理论的深入,如何基于视觉快速准确的捕获跟踪三维手势运动数据并实时理解动态手语的语义,已成为自然人机交互领域的关键问题。此外,听障人群位居五大残疾之首,手语作为聋哑人与外界交流的最主要方式,开发新型、自然、友好和便携的手势交互系统在聋人教学及交流方面起着至关重要的作用。因此,本文重点研究新型人机交互和动态手语识别中的两项关键技术即动态手势的检测与跟踪。动态手势运动涉及的人体部位为典型的非刚体目标,由于模型难以建立,动态手势运动轨迹的准确估算与跟踪较为困难。在动态手势跟踪过程中,手部存在任意变形,且目标手势并非一成不变的在做某一方向的匀速运动,而是存在各个方向速度未知的随机运动,即动态手势跟踪具有一个显著特点:机动性。此外,动态手势在连续运动过程中,由于目标可能出现的个数不确定及环境背景等因素的干扰,系统存在一定的随机性和不确定性。故动态手势跟踪过程中可能会出现四类问题:任意变形手势跟踪的鲁棒性问题、类肤色干扰问题、目标跟踪错误时的错误恢复问题以及多目标相互遮挡时的遮挡恢复问题。针对动态手势跟踪过程中可能存在的四类问题,本文提出一种基于信息融合滤波的动态手势跟踪算法。首先,采用Kinect2.0获取动态手势运动的RGB彩色视频流和深度视频流,构建动态手势数据库,并分别对其进行信息预处理;其次,提出一种基于区域-卷积神经网络R-CNN结合迁移学习算法的自动手势检测器训练方法,实现对复杂背景下目标手势的自动准确检测;随后,在传统仅含非机动模型的手势状态空间的基础上增添两个机动模型,以此更加准确的描述手势的状态空间,且通过融合动态手势运动过程中的肤色信息和深度阈值信息,提高动态手势跟踪算法的鲁棒性,并在此基础上提出了一种信息融合Kalman滤波跟踪算法;最终,完成动态手势跟踪算法的系统搭建及性能测试。为验证动态手势检测与跟踪算法的实时性和鲁棒性,对动态手势跟踪过程中的四类问题进行仿真。实验对比结果表明,本文算法可以有效解决动态手势跟踪过程中可能出现的四类问题,并且能够取得较高的检测和跟踪精度。