论文部分内容阅读
基于视觉系统的人机交互在人类生活中扮演着越来越重要的角色,并主要应用在实时手语识别、智能机器人和虚拟现实等方面。人机交互中至关重要的一环就是手势识别,其过程主要包括分割、跟踪和识别。由于实时的手势识别系统对识别精度和时间复杂度的要求很高,即在保证识别精度的情况下尽量缩短识别时间,再加上手势在时间和空间上变化的多样性和各种复杂的应用场景的影响,使得手势识别成为一个热门且具挑战性的研究领域。在手势分割与跟踪部分,本文中提出了一种基于Kalman滤波的手势图像提取方法。通过Kinect获取深度图像和骨骼信息,基于Kalman滤波实现准确骨骼点的跟踪,对于采用深度阈值分割残留的手臂信息,提出了一种几何的去手臂方法,可有效地去除手臂部分的干扰。最后通过查找手势轮廓,并用最大矩形框提取手势区域得到归一化的手势图像。为验证分割的高效性,本文中采集并制作了31类汉语手语的静态手势数据集,共173600个样本。在手势识别部分,采用了两种方法进行对比实验。其一是特征提取的手势识别方法,提取了两种局部二值模式(LBP)特征和一种方向梯度直方图(HOG)特征,并用支持向量机(SVM)机器学习的方法进行分类识别。其二是搭建卷积神经网络(CNN)模型的方法,直接输入手势数据集,通过卷积自动提取手势图像的特征,训练得到相应的模型,用测试集测试识别精度和时间指标。最后,在手势识别精度和时间复杂度的分析中,对比了CNN识别的方法和三种提取特征的方法的实验结果。实验表明,CNN的手势识别模型得到了96.23%的识别精度,高于提取特征中的HOG+SVM的识别方法。时间复杂度的分析上来看,对于每张图像提出的手势区域提取方法平均耗时21.05ms,识别部分采用CNN方法的平均识别时间为0.92ms,因此可得基于CNN的手势识别系统的平均识别时间21.97ms。所以,在基于Kinect的实时手势识别的应用中,使用该手势区域提取方法和CNN识别模型的手势识别系统能够满足实时性的要求。