论文部分内容阅读
近年来随着计算机设备在人们生产生活中的普及,人机交互成为最重要的计算机应用研究领域之一。有别于传统的键盘鼠标等输入方式,手势识别作为一种更自然的人机交互形式,已经成为人机交互领域的研究热点。传统的手势识别技术主要依赖于数据手套或特定设备,具有穿戴不便、价格昂贵和准确率低等缺点。随着计算机视觉研究领域的发展和计算机摄像头设备的普及,研究基于计算机视觉的具有成本低廉、实时易用和准确率高等特点的手势识别方法十分必要,这不仅能提高手势识别系统的用户体验,而且也将促进手势识别技术在日常生活中的应用。手势识别一般分为静态和动态手势识别,本文利用机器学习和深度学习相关理论,对基于Leap Motion和普通网络摄像头的静动态手势识别方法分别进行了研究。在静态手势识别研究中,针对Leap Motion的手势模型数值数据,本文设计了一种基于手指指尖互距离的特征T,实验结果表明该特征能显著的提高手势分类准确率。为进一步提高分类准确率,本文提出一种多特征融合方法对手势模型数值特征和手势图像的HOG特征进行融合,采用多分类支持向量机方法在手势数据集进行十折交叉验证实验。实验结果表明,测试集上的分类准确率达到了99.42%。基于以上工作,本文提出一种有效的基于Leap Motion的实时静态手势识别框架。对于动态手势识别,本文提出基于三维卷积的动态手势识别网络3D-GesNet,并提出一系列方法对其进行改进,实验结果表明该方法超过了大多数主流的动态手势识别方法。同二维卷积仅能学习图像的空间特征不同,三维卷积能够同时学习空间和时序特征,保持了空间时序特征的统一性和整体性。本文提出的3D-GesNet仅以手势的RGB信息作为输入,在大规模手势数据集Jester上能够取得94.59%的分类准确率,同时识别速度能够达到182FPS,具备实时识别的能力。此外,本文针对动态手势提出了一种有效的空间时序数据增强方法,实验结果表明该方法能将分类准确率提高约2.5%。本文基于迁移学习和t-SNE可视化等方法对3D-GesNet提取的3GN特征进行了一系列对比实验,实验结果验证了3GN特征是泛化的、可区分的和压缩的。本文的主要贡献有:(1)针对静态手势识别任务,针对数值数据设计了基于手指指尖互距离的特征T,并提出了多特征融合方法对Leap Motion的图像特征和数值特征进行融合。(2)针对动态手势识别任务,本文提出了基于三维卷积动态手势识别网络3D-GesNet,并对此提出一种改进结构3D-GesNet-B。(3)本文提出一种有效的针对动态手势的时空数据增强方法,能够有效地减少模型过拟合,提高分类准确率。