论文部分内容阅读
随着增强现实(AugmentedReality,AR)和虚拟现实(VirtualReality,VR)等头戴式设备的不断涌出,头戴式设备的交互方式备受关注。目前市场上头戴式设备的交互方式主要为设备控制的接触式方式,然而基于视觉的非接触式交互方式能为用户提供更优越的交互体验。具体的,基于视觉的手势交互方式需要头戴式设备携带摄像头,以第一视角背向地采集交互者手势信息,光线变化、运动模糊、手势遮挡等因素使其在应用上具有非常大的挑战。因此,如何将视觉手势交互方式应用到头戴式设备中是一项非常值得研究的工作。本文针对第一视角下基于视觉手势交互中的难点,面向头戴式设备中的手势交互应用,以彩色摄像头为图像采集设备,展开了以下主要工作:(1)针对静态手势识别算法中模块组合带来的逐层误差累积问题,提出了一种基于Faster-RCNN网络的Hand-RCNN方法。方法同时实现了第一视角下静态手势的检测、识别与指尖定位三个功能,具体包括:a)图像预处理:均值规整化,增加边缘轮廓通道,引入批量归一化,加强模型特征表达。b)指尖定位:指尖定位从点回归问题转变为目标检测问题,结合点回归多次微调修正,使得指尖定位误差降低至3.77像素(pixels),获得较优的指尖定位效果。c)优化网络结构:针对特征提取网络、RPN网络、ROIPooling层与分类输出,进一步简化网络参数,降低特征映射维度,在保证网络精度的同时,使得网络参数数量降至37M,计算速度提高至35.71帧每秒(frame per second,fps),满足手势交互的实时性要求。(2)针对头戴式应用场景需求,搭建了一套第一视角下手势交互系统。具体的,以Hand-RCNN为基础,辅以运动跟踪、平滑滤波等方法,实现了手势漫游、确认、挥手、双手捏合等多种手势交互方式,并在此基础上,以索尼HMZ-T3头戴式设备为载体,设计了相关的手势集指令与交互界面,搭建了一套手势交互为主体的音视频娱乐系统。此外,本文还实现了系统在移动平台上的移植,且利用NEON优化技术进一步性能优化,旨在扩展手势交互在头戴式设备中的应用思路。