论文部分内容阅读
近几年人体行为识别在智能视频监控,人机交互和老年监护等工业生产上得到了越来越广泛的应用,具有很高的研究价值。人体行为识别任务是指用算法模型识别出一段视频中所包含的人体行为类别。研究人体行为识别的算法可以分为传统算法和深度学习算法。传统算法十分依赖人工提取的特征,不仅复杂耗时,而且泛化性很差。相比之下,近几年出现的深度学习算法能够自主学习特征,因此更加准确和高效。但是目前基于深度学习的人体行为识别算法也存在一些问题,尤其是没有合理利用视频的低层时空特征和高层时序特征,并且忽略了视频的多模态数据之间高效的结合。为了解决以上两个重要问题,本文将对人体行为识别的深度学习算法展开进一步的研究。主要创新工作概括如下:(1)提出了一种基于大型视频数据集Kinetics预训练的I3D-LSTM网络,该网络能高效的学习低层时空特征和高层时序特征,实现更加准确的视频人体行为识别。通过分析目前人体行为识别领域深度学习算法的优缺点,我们发现三维卷积神经网络(3D CNN)更加适合学习视频帧间的低层时空特征,而长短时记忆网络(LSTM)更加适合高层时序关系建模。并且当前的算法模型都是在大型图像数据集ImageNet上进行预训练,这对于视频的人体行为识别算法来说是很不合理的。(2)在I3D-LSTM网络的基础上,我们提出了一种新的I3D-GRU网络,实现了人体行为识别准确率的进一步提升。I3D-GRU网络是基于I3D-LSTM网络的改进。其中门控循环单元网络(GRU)是LSTM网络的一种变体,它和LSTM网络一样具备强大的时序关系建模能力,但是它和LSTM网络相比拥有更少的参数。I3D-GRU网络能够有效的避免过拟合现象的发生,而且在人体行为识别数据集UCF-101上也取得了比I3D-LSTM网络更高的识别准确率。(3)提出了一种高效的多流网络用于面向RGB-D深度视频的人体行为识别。目前的RGB-D深度视频数据集提供了深度图像序列、骨架节点数据以及RGB视频图像三种数据模态。针对这三种数据模态各自的优缺点,我们分别选择了适合对它们进行特征提取的深度神经网络模型。然后用融合机制模块将这三个分支网络模型融合起来。并且我们也对不同的融合机制展开了研究,包括特征融合机制和决策级融合机制,最终找到使多流网络识别准确率最高的融合机制。