论文部分内容阅读
人类每天连续地从事着大量的活动。我们不自觉的识别理解这些活动,同时跟其他人与环境进行互动和交流。如果机器跟计算机也能像人类一样有效的理解到人类的手势,一个新世界的篇章将被翻开,充斥着大量的协助人类生活的应用。这个对社会重大的利益将激发基于机器的手势识别的研究,这些研究已经在大量的应用中展示了一些初级的优势。例如,手势可以用来对机器人发送指令,或者代替例如触摸屏或者鼠标等便准输入的计算机程序。 本文提出了一种基于抽取自RGB-D数据的时空特征的人类手势的识别系统框架,此系统能够有效的抽取特征及有效的识别人类手势,其中一个单独的用例也是可以有效的用来训练。通常说来,我们的框架大致分为两部分,特征抽取及分类。它们两者都严重的影响着识别的效果。 1.Shi-Tomasi边缘检测算法被用来检测一幅图像中运动区域的关键兴趣点,在每一帧的GRB跟深度图的不同层次上。当检测兴趣点时,可能会检测到一些无效的点,所以我们应用了Lucas-Kanade跟踪及过滤方法。使用Lucas-Kanade方法,每个在金字塔不同层次上的兴趣点的速度都被计算出来。然后,只有满足运动约束的那些点才被筛选出来。 2.改良的GradientLocation and Orientation Histogram(GLOH)被应用到鲁棒的关键兴趣点描述子的捕获中。改良的GLOH从原始量的16bins降低至8bins从而生成了136个描述子向量。识别率几乎是想等的,但是计算时间几乎是改良的GLOH的一半。 3.为了学习判别性模型,从训练样本中提取的所有特征采用K聚类的方式,来学习一个视觉码本。我们使用SOMP的稀疏编码方法来获得描述码,该描述码将每一个特征映射到某个视觉码本中。 4.为了识别手势,我们提出一种基于K近邻的分类方法来学习和分类手势。对于一个训练集中的每一个视频,产生本地动作。所有产生的数据集都被聚类。使用K近邻的方法来分析测试集中的手势。根据对给定的手势进行投票,按照识别的概率,视频可以被分类。在对CGD的动作识别中,我们提出的框架的有效性和可靠性得到了证明。