论文部分内容阅读
手势识别是计算机领域中一个重要且具有挑战性的研究课题,同时作为人机交互的重要组成部分,其发展影响着人机交互的自然性和灵活性。然而,传统手势识别方案以彩色及深度图像为研究对象,在特征提取时常常受到肤色、复杂背景、遮挡重叠等因素干扰,难以准确地分割手势。在分类阶段,传统分类模型存在着样本需求量大及识别率低等缺点。因此,本文利用Kinect深度传感器获取的骨骼信息为研究对象,以减少应用场景对特征提取的影响;并针对两种手势动作识别问题分别设计了特征提取方案,即:人工设计提取几何特征和双路卷积神经网络(Convolutional Neural Networks,CNN)提取随机特征;此外利用长短期记忆网络(Long Short Term Memory Network,LSTM)构建分类模型对手势动作进行识别。本文主要研究内容如下:(1)鉴于手势动作识别可以视为时间序列分析问题,本文利用LSTM对序列的上下文信息进行建模。同时,为了将手势序列的多个时间尺度信息在全局范围内得到融合,实现输入数据的高级抽象,构建了多层级LSTM堆栈的分类模型。并通过对比不同层级堆栈的实验结果,确定了四层级LSTM为最佳堆栈层级。(2)针对手与手臂形成的手势动作识别问题,本文利用骨骼信息对手势动作进行表征,并人工设计提取了三种几何特征用于描述手势动作。同时,结合LSTM模型构建了基于几何特征的多层级LSTM手势识别框架。其实验结果验证了本文所设计的几何特征和相应手势识别框架在识别手与手臂形成的手势动作中的有效性。(3)针对包含手形的复杂手势动作识别问题,本文将手部区域图像和骨骼信息时空特征的彩色编码图像作为双路CNN的输入来提取高层次的随机特征,并构建了基于随机特征的多层级LSTM手势识别框架。其中针对手部区域小、易混淆等问题,提出了一种多尺度加速区域卷积神经网络(Faster R-CNN)以获取手部区域图像。实验结果表明,上述方法能够很好地处理复杂手势动作识别中手部区域获取和特征提取问题,其在自定义数据集上达到97.834%的识别率。并对比分析了各类识别方法在大型公开“NTU RGB+D”数据集的评估实验结果,验证了所设计方案的优先性。