论文部分内容阅读
行为识别是一个典型的跨学科问题,已经成为计算机视觉与人工智能等领域的热点研究方向。其网标是对图像、视频数据中的人体行为进行分析识别,相关成果广泛应用于虚拟现实、安全监控、人机交互、多媒体内容理解等方面。近年来,深度学习在行为识别领域取得了巨大成功,但行为识别中的挑战与困难仍然存在。首先,由于动作在极短时间内变化较慢,连续帧存在高度冗余,如何提取关键帧以及实现运动相关区域与复杂背景的分离是亟需解决的问题。其次,行为由时间和空间两个维度上的信息来表征,开发能够高效融合行为时空信息的深度学习算法显得尤为重要。此外,端到端的行为识别框架设计也面临诸多困难。
针对上述问题,本文结合深度学习技术对RGB视频人体行为识别进行研究,主要工作如下:
(1)提出了一种时间注意力模块和一种空间注意力模块,并基于上述模块设计了一种端到端的行为识别框架。时间注意力模块的建立基于全局平均池化操作和全局最大池化操作,能够对视频中的关键帧与冗余帧进行区分。空间注意力模块融合了特征图的值特征和梯度特征,可以使卷积神经网络的动作建模过程聚焦于图像中的运动相关区域。将时间注意力模块和空间注意力模块嵌入现有卷积神经网络中,得到一种新的端到端行为识别框架。大量的对比实验验证了本文所提算法的有效性。
(2)提出了一种基于跨模态注意力机制的外观-运动融合网络,可以从RGB和光流数据中以端到端的方式学习到更加有效、鲁棒的行为特征。该网络由一个外观-运动融合模块与卷积神经网络相连接而构建,其目标是在跨模态注意力机制的引导下,将RGB和光流数据中的行为时空信息整合到统一的行为识别框架中。跨模态注意力机制的建立仅依赖于光流数据,包含一个关键帧自适应选择模块和一个光流驱动的空间注意力模块。前者可以从视频帧序列中自适应地选择出对识别结果影响最大的关键帧,而后者则能够引导网络聚焦于关键帧中重要的运动相关区域。此外,在外观-运动融合模块中,设计了两种外观-运动数据融合方案。大量的对比实验验证了本文所提算法的有效性。
针对上述问题,本文结合深度学习技术对RGB视频人体行为识别进行研究,主要工作如下:
(1)提出了一种时间注意力模块和一种空间注意力模块,并基于上述模块设计了一种端到端的行为识别框架。时间注意力模块的建立基于全局平均池化操作和全局最大池化操作,能够对视频中的关键帧与冗余帧进行区分。空间注意力模块融合了特征图的值特征和梯度特征,可以使卷积神经网络的动作建模过程聚焦于图像中的运动相关区域。将时间注意力模块和空间注意力模块嵌入现有卷积神经网络中,得到一种新的端到端行为识别框架。大量的对比实验验证了本文所提算法的有效性。
(2)提出了一种基于跨模态注意力机制的外观-运动融合网络,可以从RGB和光流数据中以端到端的方式学习到更加有效、鲁棒的行为特征。该网络由一个外观-运动融合模块与卷积神经网络相连接而构建,其目标是在跨模态注意力机制的引导下,将RGB和光流数据中的行为时空信息整合到统一的行为识别框架中。跨模态注意力机制的建立仅依赖于光流数据,包含一个关键帧自适应选择模块和一个光流驱动的空间注意力模块。前者可以从视频帧序列中自适应地选择出对识别结果影响最大的关键帧,而后者则能够引导网络聚焦于关键帧中重要的运动相关区域。此外,在外观-运动融合模块中,设计了两种外观-运动数据融合方案。大量的对比实验验证了本文所提算法的有效性。