论文部分内容阅读
手语是根据手势动作的变化,模拟象形、音节以构成其特定的含义并进行表达,标准手语包含手型、位置、动作、方向和NMF(表情)这五种主要的构成要素。手语是听力障碍者、聋哑人群之间以及与正常人群互相交际和思想交流的“有声语言的重要辅助工具”,而对于听力障碍者来说,它是主要的交流工具。正是有手语的存在,才不会因为语言限制了聋人的生活空间、发展空间。随着计算机技术的不断发展,非接触式人机交互相对于传统接触式人机交互用户体验不断提升,人们对于在人机交互的过程中更加智能、便捷、高效性的要求越来越高。基于视觉的手势识别系统可以隔空实现无接触交互,诸如教育教学领域、VR/AR、智能家居、智能驾驶、医疗领域及工业应用等方面都影响着人类的生活。用手语进行人机交互,生动、形象、直观、具有很强的视觉效果,所以,未来手语将成为一种使用普遍的非接触式的新型人机交互方式。对手势的识别一般受肤色,手型和姿势等因素的影响,构建手势的识别系统会因为提取的特征手势信息的不同、选用的识别算法的不同而具有不同的适用性。本论文重点进行了基于深度神经网络模型的手势识别研究,具体研究工作如下:1.使用Kinect 2.0采集手势图像及视频构建静态手语数据库及手语视频库。静态手语数据库包含两部分:复杂背景下的彩色手语图像数据库和简单背景下的深度图像手语数据库,并对数据库中的深度图像经过预处理分割得到目标手型部分。这样以来,既克服了肤色对识别结果的影响,也可以避免光照比较敏感,对环境要求高,鲁棒性不强等因素的影响。为后续手语信息分类学习奠定了基础。2.提出将手势图像作为输入,使用卷积神经网络进行静态孤立词手语的识别。在静态手语识别的实现过程中,分别完成复杂背景下的彩色手语图像识别和简单背景下的深度图像手语识别的实验。实验的识别结果表明:相比于彩色图像数据集,深度图像数据集的识别准确率更高;另外,相比传统的描述符表示手势特征和分类器设计的方法,采用卷积神经网络进行静态手语识别更加高效、准确。最后在训练好的网络模型的基础上,实现实时的对Kinect拍摄的手势图像的手语识别。3.在完成对图像中手语识别的基础上,提出将卷积神经网络(Convolutional Neural Networks,CNN)和长短时记忆网络(Long Short-term Memory,LSTM)有效的结合起来进行特定手语视频活动的识别,CNN主要是负责提取输入手势运动数据的特征向量;然后,将获取的手势特征向量按照时间序列输入到LSTM网络进行手势的识别,实验对视频序列的识别准确率达到99.256%。