论文部分内容阅读
随着计算机科学的发展,人机交互技术的研究成为了计算机技术研究领域的重要组成部分。而手势识别作为人体语言理解的一部分,有着非常重要的作用。一方面,它是虚拟现实人机交互的主要手段;另一方面,它又是聋哑人利用计算机与正常人交流的辅助工具。因此手势识别作为人机交互的重要手段,正在被越来越多的研究者所重视并研究。近年来,研究者越来越多的使用计算机视觉的方法进行手势识别并且取得了一定的效果。基于计算机视觉的手势识别方法是直接利用摄像机等图像采集设备输入手势,这样的方法根本不受设备约束的影响。但是到目前为止在手势识别方面还是存在着许多方面的困难。对于静态手势识别,受背景环境的影响,怎样分割出准确的手形轮廓特征就是一个巨大的挑战。而在动态手势识别方面,怎样合理的跟踪手势并分割手势也是一个巨大的挑战。本文对基于视觉的手势识别进行了深入的研究,通过将图像处理,计算机视觉,机器学习,深度学习等知识进行融合,提出了一种有监督和无监督结合的静态手势识别方法和一种基于稀疏表示的动态手势识别方法。本文主要做了如下三部分工作:1.对于静态手势识别,通过引入深度学习的方法,首先通过无监督的稀疏自编码器对RGB图像小块的训练得到初始权值,将这些权值作为卷积核对原始的RGB图像进行卷积来获取图像的局部特征,再对卷积后的特诊进行一个池化的过程来提取出图像的全局统计特征,同时降低特征的维度使识别结果更加快速和准确。此方法利用深度学习强大的自我特征学习功能来避免了手势图像的分割过程从而减小背景环境对识别效果的影响。而且还能降低特征维度使识别的速度和准确率都有所提高。2.由于能获取深度信息的摄像设备越来越多,如Kinect。深度图像与彩色图像相比,深度图像能够将物体表面的三维特征直接反应出来,而且还不受色度,阴影以及光照等因素的影响。通过获取手势的深度图,将深度图的信息和RGB图像的信息进行融合来提高识别率。3.对于动态手势识别,本文提出了一种基于稀疏表示的动态手势识别方法。首先直接通过三维的角点检测来提取出视频中所有的时空兴趣点,以该点为中心建立一个立方体,再计算出该立方体的三维时空描述符,以该三维时空描述符作为视频在该点的特征。然后用这些三维时空描述符特征去训练一个超完备字典,通过超完备字典得到每个特征的稀疏表示。对稀疏表示系数进行一个池化的过程就可以得到每个视频的特征,最后进行分类识别。本方法不需要手势的分割过程,也不用复杂的数学建模过程,大大降低了动态手势识别的复杂度。上述研究成果具有一定的前瞻性和挑战性。本文在理论分析上取得一些突破,在技术实现上具有一些创新,为手势识别应用提供了新的思路,具有重要的理论意义和实用价值。