论文部分内容阅读
在所有肢体语言中,基于手势的信息交流是最自然、最方便的一种交互方式。因此手势识别的研究始终是人机交互中非常重要的一个组成部分。手势识别算法大体上可以分为基于辅助设备和基于计算机视觉的手势识别两种。早期基于辅助设备(数据手套、惯性传感器等)的手势识别算法受制于硬件工艺水平的限制、价格和用户不得不在身上安装许多附加设备等因素,导致该类算法并没有流行起来。与前一种方法相比,基于计算机视觉的算法需要的设备仅仅是摄像头。由于其方便性,近年来基于计算机视觉的手势识别算法受到广泛关注。
早期基于计算机视觉的手势识别算法可以分为基于人手3D模型和基于表观的手势识别两种。近年来随着一种名为局部不变描述符算法的流行,越来越多研究人员采用局部描述符来实现手势的识别。但该算法面临的主要难点包括以下三个方面:
1)如何提取图像中手部相关的特征信息。我们知道,人手属于多关节、非刚性对象,而且存在着较为严重的自我遮挡现象。人手的这些特点严重干扰着从图像中提取出来特征的性能和数量。此外,人手的几何结构相对简单,导致可提取的信息较少,这也严重影响了手势的识别。
2)如何构建低级别图像特征信息与高级别对象信息之间的关联。从图像中提取的低级特征信息(如图像局部不变特征点、图像显著度信息等)反映了图像最底层信息,而这些信息包含了大量冗余信息。直接利用这些信息进行对象的检测或识别会影响算法的准确率与运算效率。为了解决这个问题,必须在低级别图像信息与待识别对象之间构建一个桥梁,提高算法的准确率和运行效率。
3)如何构建分类器。无论前面采用哪种方法,最终都是要通过分类器实现最终的对象识别。当前的分类器算法种类繁多。但对于特定的手势模型来说,依然需要特定的分类器才能得到令人满意的识别效果。
此外,如何消除背景对基于视觉的手势识别的影响也是一个非常重要的问题。背景对手势识别的影响非常严重,尤其是人手的特殊结构更加据了背景的影响。可以说复杂背景影响了手势识别算法的实际应用。
针对基于视觉手势识别算法存在的问题,本文在前人研究的基础上提出了相应的解决方法,针对不同背景条件下提出相应的基于局部不变特征的手势识别解决方案,主要包括引入标准Bag-of-word(BoW)模型并加以改进实现手势识别;对标准BoW模型进行进一步扩展提出层次化BoW模型对人手进行建模,同时提出基于谱嵌入的背景过滤算法及Histogram-Intersect-kernel(HIK)实现手势的分类。此外,为了准确检测手部区域我们提出了图像显著度检测算法,并实现基于图像显著度的手势检测与识别。具体来说,本文的贡献和创新点主要包括如下几点:
1)提出基于标准BoW模型的手势识别算法。通过引入标准BoW模型,实现低级图像局部不变特征与高级别对象信息的关联。同时针对BoW模型自身存在的缺陷,提出ARPD(AppearanceandRelativePosition)图像特征描述算法,提取图像特征的颜色、梯度和空间分布信息,从而达到利用BoW模型对人手的建模的目的。此外,提出一种新的基于谱嵌入的BoW词典构建算法,进一步提高手势识别率。
2)对BoW模型进一步扩展,针对人手的特殊结构提出一种层次化的BoW模型。该模型通过对手部区域的分区捕获人手各部位的特征,同时引入投影策略,每个分区中局部不变特征分别向水平和垂直轴投影获得各部分子区间中图像特征的空间分布信息。根据层次化BoW模型,提出层次化词典,并采用基于HIK的聚类算法构建。为了减少图像背景对手势识别的影响,提出基于谱聚类和HIK的图像局部不变特征点过滤算法。
3)为了进一步降低复杂背景对手势识别的影响,准确检测手部区域,本文提出了图像显著度提取算法。该算法基于生物视觉原理,采用基于图像等照度线的算法提取图像局部和全局显著度信息。通过全局与局部相结合的方式,既保存了图像中的细节信息又减少了背景及噪声的影响。此外,采用统一的图像积分策略计算颜色、亮度和梯度方向三个特征子图,为后续构建最终图像显著度图打下良好的基础。
4)利用提出的图像显著度检测算法,与肤色模型相融合实现手势区域的检测与识别。图像显著度信息属于低级别图像信息,而肤色信息则属于高级对象信息,采用低级与高级信息相融合策略实现手势区域检测。引入基于生物学视觉原理的图像特征提取算法从检测得到的手部区域中提取图像特征。该算法模拟生物视觉系统的层次化结构提取高级别的、包含对象信息的图像特征。最终利用支持向量机实现手势识别。
通过实验表明,本文提出的算法能够有效地解决基于视觉手势识别算法中存在的问题,削弱复杂背景对手势识别的影响,最终实现准确的手势识别,如在第6章中,采用图像显著度与肤色模型相融合的方式实现复杂背景下的手势识别率最高可达95%以上。在本文最后,分析了提出方法的主要问题并展望了未来的研究方向。
早期基于计算机视觉的手势识别算法可以分为基于人手3D模型和基于表观的手势识别两种。近年来随着一种名为局部不变描述符算法的流行,越来越多研究人员采用局部描述符来实现手势的识别。但该算法面临的主要难点包括以下三个方面:
1)如何提取图像中手部相关的特征信息。我们知道,人手属于多关节、非刚性对象,而且存在着较为严重的自我遮挡现象。人手的这些特点严重干扰着从图像中提取出来特征的性能和数量。此外,人手的几何结构相对简单,导致可提取的信息较少,这也严重影响了手势的识别。
2)如何构建低级别图像特征信息与高级别对象信息之间的关联。从图像中提取的低级特征信息(如图像局部不变特征点、图像显著度信息等)反映了图像最底层信息,而这些信息包含了大量冗余信息。直接利用这些信息进行对象的检测或识别会影响算法的准确率与运算效率。为了解决这个问题,必须在低级别图像信息与待识别对象之间构建一个桥梁,提高算法的准确率和运行效率。
3)如何构建分类器。无论前面采用哪种方法,最终都是要通过分类器实现最终的对象识别。当前的分类器算法种类繁多。但对于特定的手势模型来说,依然需要特定的分类器才能得到令人满意的识别效果。
此外,如何消除背景对基于视觉的手势识别的影响也是一个非常重要的问题。背景对手势识别的影响非常严重,尤其是人手的特殊结构更加据了背景的影响。可以说复杂背景影响了手势识别算法的实际应用。
针对基于视觉手势识别算法存在的问题,本文在前人研究的基础上提出了相应的解决方法,针对不同背景条件下提出相应的基于局部不变特征的手势识别解决方案,主要包括引入标准Bag-of-word(BoW)模型并加以改进实现手势识别;对标准BoW模型进行进一步扩展提出层次化BoW模型对人手进行建模,同时提出基于谱嵌入的背景过滤算法及Histogram-Intersect-kernel(HIK)实现手势的分类。此外,为了准确检测手部区域我们提出了图像显著度检测算法,并实现基于图像显著度的手势检测与识别。具体来说,本文的贡献和创新点主要包括如下几点:
1)提出基于标准BoW模型的手势识别算法。通过引入标准BoW模型,实现低级图像局部不变特征与高级别对象信息的关联。同时针对BoW模型自身存在的缺陷,提出ARPD(AppearanceandRelativePosition)图像特征描述算法,提取图像特征的颜色、梯度和空间分布信息,从而达到利用BoW模型对人手的建模的目的。此外,提出一种新的基于谱嵌入的BoW词典构建算法,进一步提高手势识别率。
2)对BoW模型进一步扩展,针对人手的特殊结构提出一种层次化的BoW模型。该模型通过对手部区域的分区捕获人手各部位的特征,同时引入投影策略,每个分区中局部不变特征分别向水平和垂直轴投影获得各部分子区间中图像特征的空间分布信息。根据层次化BoW模型,提出层次化词典,并采用基于HIK的聚类算法构建。为了减少图像背景对手势识别的影响,提出基于谱聚类和HIK的图像局部不变特征点过滤算法。
3)为了进一步降低复杂背景对手势识别的影响,准确检测手部区域,本文提出了图像显著度提取算法。该算法基于生物视觉原理,采用基于图像等照度线的算法提取图像局部和全局显著度信息。通过全局与局部相结合的方式,既保存了图像中的细节信息又减少了背景及噪声的影响。此外,采用统一的图像积分策略计算颜色、亮度和梯度方向三个特征子图,为后续构建最终图像显著度图打下良好的基础。
4)利用提出的图像显著度检测算法,与肤色模型相融合实现手势区域的检测与识别。图像显著度信息属于低级别图像信息,而肤色信息则属于高级对象信息,采用低级与高级信息相融合策略实现手势区域检测。引入基于生物学视觉原理的图像特征提取算法从检测得到的手部区域中提取图像特征。该算法模拟生物视觉系统的层次化结构提取高级别的、包含对象信息的图像特征。最终利用支持向量机实现手势识别。
通过实验表明,本文提出的算法能够有效地解决基于视觉手势识别算法中存在的问题,削弱复杂背景对手势识别的影响,最终实现准确的手势识别,如在第6章中,采用图像显著度与肤色模型相融合的方式实现复杂背景下的手势识别率最高可达95%以上。在本文最后,分析了提出方法的主要问题并展望了未来的研究方向。