论文部分内容阅读
视频中人体行为识别是计算机视觉领域研究的热点话题,其任务是利用计算机视觉和深度学习算法自动分析和识别视频中人体发生的动作,因此被广泛应用于视频监控、互联网视频分析、智能家居、人机交互和购物行为分析等。由于人体动作的类间相似和类内差异性以及周围场景的复杂性等因素,导致在构建人体行为识别模型时遇到许多问题和挑战。本文主要针对人体行为识别建模时遇到的问题展开研究,具体工作如下:(1)由于监控视角、人体姿态和场景等复杂的情况,直接通过增加3D卷积神经网络层数来提取有效的视觉特征,容易导致卷积模型发生梯度消失和过拟合,从而降低了行为识别率。针对上述问题,本文提出了一种基于双重残差卷积网络的识别方法,通过在残差网络中嵌套残差网络,充分融合了浅层和深层视觉特征,缓解了模型训练时梯度消失问题带来的影响,从而使模型性能得到了提升。在多相机跌倒数据集和热舒夫大学跌倒数据集上进行了测试评估,结果表明双重残差网络性能优于三维卷积网络、三维残差网络、伪三维残差网络和2+1维残差网络识别方法,从而验证了双重残差网络模型对提高异常行为识别效果的有效性。(2)在视频中人体活动定位和识别领域中,现有的时序行为提名方法无法很好地解决行为特征长期依赖性而导致提名召回率较低。针对上述问题,本文提出了一种上下文信息融合的时序行为提名方法。该方法首先采用三维卷积网络提取视频单元的时空特征,然后采用双向门控循环网络构建上下文关系预测出时序行为区间。针对门控循环单元(Gated Recurrent Unit,GRU)存在参数较多和梯度消失的问题,通过由输入特征控制门结构增强并行计算能力和引入加权平均增强历史和当前时刻信息融合的能力,提出了一个简化的门控循环单元(Simplified-GRU,S-GRU)。最后在数据集Thumos14上进行实验验证和比较,结果表明基于双向S-GRU循环网络的时序行为提名方法提高了提名召回率。(3)由于长视频中存在大量的背景视频片段或视频帧,循环网络难以捕获感兴趣的运动区域,降低了时序提名召回率。针对上述问题,本文通过引入多头注意力和背景抑制两个注意力引导网络,增强视频之间的时序联系,提高时序提名召回率。训练阶段,采用多任务损失联合训练背景抑制网络和时序提名网络;测试阶段,背景抑制网络和多头注意力网络自适应输出注意力权重引导时序定位任务。在公共数据集Thumos14进行了时序提名和时序检测实验,结果表明本文提出的方法提高了人体行为识别效果。