论文部分内容阅读
视频中的组群行为识别是一项具有挑战性的任务,现已成为计算机视觉领域的研究热点。组群行为相比于单人行为具有更复杂的结构,组群内部之间的干扰、遮挡以及人与人之间的交互关系等都会对我们最终的识别结果产生影响,因此,并不能直接将单人行为识别技术应用于组群行为识别任务中。目前,在组群行为识别方面主要面临两个难点,一是如何利用复杂场景中的多重视觉线索进行信息融合,以获得更具区分性的特征;二是如何对群体中的情景人物进行建模,以获得视频中的长时序上下文关系。然而,以前的大多数方法都无法提供一个实际的解决方案来共同解决这两个问题。因此,本文提出一种基于双路TSN网络(Temporal Segment Networks)架构与LSTM网络(Long Short-Term Memory Networks)的上下文建模框架,同时解决这两个问题。对于前者,利用视频中的多重视觉线索,不仅考虑外观特征,还将运动特征考虑在内,为捕获视频中人物及场景的光流信息,本文采用双流卷积神经网络TSN网络来处理该问题,并将该框架扩展到处理集体行为识别问题上。受基于传统的全局与局部特征融合方法的启发,本文在关注局部信息的同时,更加关注全局特征的有效性。为了正确理解组群行为,本文在单人行为识别技术的基础上,消除无关人物对我们识别造成的干扰,提取主要人物及场景的外观信息;为了解决视频中人与人之间存在的遮挡问题,将主要人物及整幅图片的运动信息也考虑在内。利用两路TSN网络进行特征提取,一路局部TSN网络提取局部特征表示,一路全局TSN网络提取全局特征表示,然后融合局部与全局的外观和运动特征,获得更具区分性的特征。对于后者,则是在TSN信息融合的基础上,借助于时序采样,通过LSTM网络,捕获视频中的长期时序依赖关系,生成用于组群行为识别的上下文综合特征表示。然后将两路softmax层的分类结果进行融合,从而实现组群行为识别。最后,将本文所提算法在CAD1和CAD2两个组群行为数据集上进行了验证与分析,分别取得93.2%和95.7%平均识别率。相比于基于传统的组群行为识别方法,本文所提模型有了很大提高;相比于目前主流的组群行为识别方法,本文模型也表现出了较好的性能,证明了本文算法的有效性与稳定性。