论文部分内容阅读
近年来,人体动作识别逐步成为计算机视觉领域研究的热点,并得到大量研究人员的关注。消费级深度相机的诞生,减轻了传统可见光图像的目标检测与分割任务的难度,并在人体姿态估计和动作识别方面表现出极好的性能优势,为人体动作识别方面提供了新的研究思路。本文针对基于深度图像序列的人体动作识别这一研究课题,从底层特征提取、中层特征编码、时空特征表示、深度网络特征学习四个层面展开了一系列研究工作。本文的主要贡献包括:(1)提出了一种基于骨架嵌入深度图像的人体动作识别方法该方法通过骨架关节点位置嵌入深度图像序列中,将人体划分为不同的运动部位,并构建局部时空模型得到具有紧凑形式的底层特征向量集合;然后结合所提出的简化的Fisher向量方法,对时序上不等长片段的底层特征进行中层特征编码,生成具有一致形式的特征向量表达。实验结果表明,该方法具有较高的实时性,可以应对复杂场景下的实时人体动作识别需求。(2)提出了一种基于时空立方金字塔的人体动作识别方法该方法采用时空立方金字塔模型对三视图投影的深度运动序列的时空结构进行划分,结合提出的立方体编码策略,生成具备较强时空描述能力的特征向量。实验结果表明,该方法在相对简单场景的场景下可以获得较好的识别性能。(3)提出了一种基于空间Laplacian和时间能量金字塔表示的人体动作识别方法该方法利用空间Laplacian和时间能量金字塔将深度图像序列表示为分布在不同时空位置上的高频和低频成分,然后分别提取高频成分和低频成分的底层特征向量,并将两种特征组合进行动作类型的判别。实验结果表明,该方法可以有效描述空间表观信息和时间运动信息,并较其他方法在识别性能和计算效率方面具有明显优势。(4)提出了一种基于残差网络双流信息融合的人体动作识别方法该方法以原始深度数据作为表观流、原始深度数据提取的梯度方向向量作为运动流,采用伪三维残差网络进行双流的早期特征融合,对表观流和运动流在高层特征之间进行学习。实验结果表明,较采用三维卷积在参数减半情况下,识别性能有所提升,该方法在NTU RGB+D大规模数据集上可以达到目前最好的识别水平。