论文部分内容阅读
基于计算机视觉的非接触式手势识别方式作为一种自然而便捷的交互手段,在人机交互应用中扮演着越来越重要的角色。当前许多手势识别方法主要利用摄像机采集得到的彩色图像进行处理,这种方式普遍受到环境光照、背景复杂度以及人体肤色等因素的制约。在实际的人机交互应用中,上述因素往往难以控制,使得从复杂背景中提取出手势完成识别交互始终是一个难点。随着深度传感器的发展,获取RGB-D图像的方式更多、获取成本逐渐降低。同时,RGB-D手势图像中深度信息的引入能够克服背景及光照变化等因素的影响,进而提高识别算法的性能。然而,如何充分利用RGB-D图像中丰富的纹理信息与场景空间信息是一个需要考虑的问题。卷积神经网络等深度学习技术的出现则为RGB-D图像的深度利用提供了一个有效的途径。针对上述问题,利用Kinect传感器获取RGB-D图像,基于卷积神经网络与特征融合理论,开展多模态融合的手势识别方法研究。具体研究内容如下:(1)针对RGB-D图像的不同模态之间的互补与多层特征之间的互补特性,提出一种基于双流卷积神网络的多模态、多层次特征提取方法。通过构建两个残差网络来分别提取不同模态的特征,并在每个卷积层次上进行输出,得到不同抽象层次、不同模态的特征等待后续处理。(2)基于上述的特征,充分考虑不同模态对于最终识别结果的影响因素不一致,设计一种特征权重自适应学习算法。通过强制性将特征分割成独立与共享两部分特征然后在根据自适应权重进行融合,得到更加紧凑和具有区分力的多模态融合特征。(3)设计一种手势分类识别模型,并设计其结构和参数。将特征进行融合后得到不同抽象水平的多模态融合特征,将其按照时序进排序然后输入到LSTM网络中,将网络的输出接到Softmax层,最终得到手势的分类预测结果。(4)为实现人手与计算机的交互行为和验证本文手势识别方法的有效性,建立了多模态手势识别系统。通过Tkinter GUI图形化开发工具将本文的算法进行封装并对系统界面和功能进行设计,最终验证了本文手势识别算法的可行性和准确性。