论文部分内容阅读
人体的行为识别是计算机视觉领域的一个重要问题,有着极大的应用范围。比如人机交互、安全防护、多媒体的视频理解和虚拟现实等。伴随着大规模人体行为数据集的获得和硬件计算能力的进步,以深度神经网络为代表的深度学习技术有了长足发展,在一些计算机视觉问题上取得了以往传统方法所不能达到的性能,然而现有方法仍有一些的局限。结合实际应用需求,本文针对人体行为识别中如下两个方向进行展开:(1)基于RGB视频的二维人体行为识别研究;(2)基于骨架坐标点云的三维人体行为识别研究。主要的研究工作和贡献如下:(1)基于RGB视频的二维人体行为识别研究针对2D行为视频中存在时间和空间两个维度的信息,设计了一种二维卷积神经网络(Convolution Neural Networks,CNN)和双流的长短时记忆模型(Long-Short Term Memory,LSTM)相结合的方法,能够同时对时间信息和空间信息进行建模。针对RGB视频中背景信息过于冗杂、人体运动信息不够凸显的问题,设计了一种全新的跨时空注意力机制,该机制经过训练之后,可以对一个行为视频中不同时间帧和同一帧上不同的位置进行关注,能够学习到对行为类别价值大时空位置。为了探索两种长短时记忆模型的输出特征,同时为了获得更鲁棒的分类特征,设计了一种联合优化层来训练分类器。并在几个常用数据集上验证了所提算法的有效性。(2)基于骨架坐标的三维人体行为识别研究针对骨架坐标点云所呈现的数据形态,设计了一个有效且可扩展的残差一维卷积神经网络作为基础网络,并在此基础上扩展成四个子网络,以从不同的方面来探索骨架序列的特征。给定一个骨架序列,空间信息被编码到每一帧的骨架关节坐标中,由多帧构成了时序信息。受限于骨架序列的表示形式,二维卷积神经网络不能直接用于处理骨架信息。因此,我们使用一维卷积层作为基础层,每个子网可以提取出具有区分性的特征。我们的第一个子网是双流网络用于探索时间和空间信息。第二个是肢体分离网络,可以获得细粒度的空间特征和整体时间特征。第三个是关注力网络,此网络上的注意力机制可以学习到关键的视频帧和神经网络中重要的特征通道。最后一个子网是帧差网络,主要连续帧之间的对应关节位置变化。四个子网独立训练,测试的时候将得分集成在一起,集成方法的关键问题是每个子网需要有一定的准确性并且子网之间应该具有多样性。每个子网共享一个基网络,子网之间的结构或输出的差异保证了多样性。实验结果表明,我们的模型在三个广泛使用的数据集上达到了很高的识别率,其中包括最大的3D骨架行为识别数据集(NTURGB+D dataset,2016)。