论文部分内容阅读
随着人工智能的快速发展,人与计算机之间的交互也越来越智能化,探索一种更加简单、高效的人机交互方式已成为研究热点。手势交互作为一种人们最常用的交互方式具有自然、用户体验好等特点,因此手势识别技术具有很高的研究价值。而基于计算机视觉的手势识别是一种经济简单且非接触式的交互方式,仅需要一个普通的单目摄像头便可实现人机之间的信息交互,因此,基于视觉的手势识别成为当下的重中之重。但由于每个人的行为方式不一样,这可能就会导致同一个手势,当不同的人表达时其外观形态会有些许差异,这对手势的识别会造成影响,因此,构建合适的、稳定的特征异常关键。在本文中主要针对了手势识别问题中的手势图像处理、静态手势识别和动态手势识别相关问题进行了分析与研究。本文的主要工作创新如下:(1)对于手势图像分割,需要将手势区域从图片中分离出来。首先提出了一种基于肤色模型融合的手势分割方法,该方法能得到更好的分割效果。首先分别基于HSV和YCrCb颜色空间模型分割出手势区域,再将它们的结果图像进行与运算,最后使用数学形态学处理消除噪声的干扰,使用最大连通区域法排除类肤色噪声区域,便可得到完整的手势区域。(2)对于静态手势识别,由于传统的人工设计特征耗时费力,并且人工设计的特征比较单一,存在很大的主观性与复杂性,很难提取鲁棒的手势特征,因此,本文使用了深度学习里的卷积神经网络,设计了一个基于手势二值图像的卷积神经网络,其中手势二值图像是使用(1)中方法得到。使用手势二值图像能减少图像中背景的影响,从而更加突出手势的特征。并且还使用了数据增强的方法使得模型具有一定的旋转、平移和尺度不变性。(3)针对动态手势识别,本文提出了一种基于稀疏采样和三维卷积神经网络的方法。由于传统的动态手势识别方法涉及到检测手型、设计手势特征、跟踪手势等问题,这个过程十分复杂。而使用三维卷积神经网络能自动的提取视频流中动态手势在时间与空间上的特征,这样就能避免传统方法的复杂性。并且还对原始的手势视频进行了稀疏采样的处理,使得输入到网络中的图像帧更具代表性,并且能降低计算复杂度,最后还使用了稀疏采样模型融合的方法来进一步的提高动态手势的准确率。