论文部分内容阅读
随着人机交互技术、虚拟现实技术的发展,人类对人机交互方式的需求越来越多样化,一种基于摄像与投影的互动系统在人机交互中的应用研究越来越广泛。目前的摄像投影交互系统主要采用红外摄像头加红外激光辅助定位的方案实现,这种方案虽然实现原理较为简单,但是系统容易受到环境光线的干扰,需在屏蔽自然光的条件下使用。针对这个问题,本文设计并实现了一套基于双目视觉的地面投影互动系统,采用双目摄像头检测代替红外激光辅助定位方案。论文主要研究工作包括三个部分:(1)脚部实时检测算法的研究与实现。投影交互系统实现的最大难点在于投影场景中的交互对象的定位与识别。而深度卷积神经网络应用于物体识别领域,具有明显的实时性高和准确度高等优点。本文在重点阐述YOLO(You Look Only Once,YOLO)这一基于卷积神经网络的目标检测算法的基础上,分析了其不足之处,如训练速度较慢、对细节区分度较差等,并针对这些不足提出了相应的改进方法,如对数据进行批规范化处理、对网络结构加入Inception模型以及改进梯度函数等,最后利用改进YOLO算法实现了对脚部的识别与定位。(2)脚尖坐标的估计及脚尖在图像的坐标到PC机鼠标坐标的映射。在实现脚部检测的基础上,结合脚部相对摄像头的方向信息设计了一种脚尖坐标的估计方法,并基于线性插值的原理设计一种坐标映射法实现脚尖在图像的坐标映射到PC机鼠标的坐标,从而调用鼠标API(Application Programming Interface,API),触发鼠标事件,实现用户与系统的交互。(3)地面投影互动系统的实现。在Windows+Qt开发环境下,采用C++结合OpenCV编程,通过多线程技术实现双目摄像头的同步采集,结合脚尖的位置和深度信息基于双目视觉原理实现脚部动作的识别,并作为鼠标事件的逻辑对应,实现了一套功能完备的地面投影互动系统。实验结果表明,本文设计的地面投影互动系统能够实时检测用户脚部和识别定义的脚部动作,并有效减少环境光线的干扰,系统具有良好的实时性和鲁棒性。