论文部分内容阅读
基于计算机视觉的手势人机交互是非接触式的人机交互,使得用户可以摆脱特定的物理设备,从而让人机信息交互显得更加直接与自然。基于视觉的手势识别与跟踪是使用单个或多个摄像头结合计算机视觉技术来解释手势并且从采集到的视频流中计算手势的运动轨迹,因而分为基于单目视觉的手势识别和基于多目视觉的手势交互两类。本文主要研究内容是在双目同步采集的图像序列中自适应检测出目标手势区域后用于跟踪与指尖定位,并将手势跟踪用于预测下一帧手势的大致区域,从而获取ROI区域以减少计算量,指尖定位的目的是为了用指尖个数与位置描述手势类别,实现基本手势的识别以及重构指尖的三维空间。本文的主要工作内容以及创新点如下:(1)针对在双目图像序列采集与传输过程中遇到的同步问题,提出了一种左右图像帧严格同步的双目采集硬件装置的设计方案及其实现,可以将同步控制在像素级别,为后续的手势图像处理与指尖三维重建等做好了基础。(2)本文分析比较了多种手势检测与跟踪的经典算法,提出了一种自适应的检测跟踪方法,该方法融合了肤色检测器和混合高斯模型检测器来定位手势的区域并计算其当前速率,然后利用速率值改进混合高斯背景模型的权值更新方法,使之能够自适应得重构真实背景,而不会将静止的目标手势融入为背景,且同时克服了静止手势前景突然运动时传统混合高斯建模法会产生伪前景的缺陷。最后对手势的类别进行识别。为了减少系统运算量,本文中采用基于滤波理论的跟踪方法对手势进行跟踪预测,获取下一帧的ROI手势区域,从而避免了整幅图像内搜索检测手势区域。本文还提出了一种融合多几何特征的指尖检测方法,并应用于手势识别。(3)本文利用所提出的手势的自适应检测以及指尖定位方法来计算指尖在左右图像中的相应位置,然后通过外极限矫正的方法使得其在左右图像中的指尖点匹配点对的y轴坐标相同,实现指尖点的左右图像的立体匹配,最后根据视差以及标定所获得的摄像机参数来快速重构指尖的三维坐标。