论文部分内容阅读
人类行为识别是计算机视觉领域中备受关注的研究方向之一,其在智能视频监控、人机交互系统、自动驾驶、智能安防等领域具有广泛的应用价值。然而,目前该领域仍然存在较多未解决的问题,例如行为动作种类繁多且相同种类动作之间变化较大,环境背景的影响,数据的获取和标注困难等。近年来,深度学习在计算机视觉领域取得了很好的发展,但由于视频中存在大量干扰,仍然难以准确识别视频中的行为。更重要的是,识别未修剪原始视频中的行为更加困难,因为该任务还需要确定检测到行为的开始帧和结束帧。本文提出了时序行为识别的算法框架DT-3DResNet-LSTM。整体算法框架包含目标检测、目标跟踪以及行为识别与行为定位三个部分。本文的主要工作如下:1、首先使用Mask R-CNN检测视频帧中的物体。其次,使用检测到的物体位置信息作为目标跟踪模型的输入,获得连续帧中的多个不同物体的运动轨迹信息。本文使用马尔可夫决策过程(MDP)作为目标跟踪模型。最后,将仅包含检测到对象的连续视频帧输入到行为识别模块,进行视频行为的识别和定位。2、首次将深层ResNeXt模型与LSTM结合来处理行为识别与定位问题。本文将ResNeXt模型在Kinetics数据集进行预训练,以更好地获得输入视频的特征。然后将特征输入LSTM网络以找到行为的实际时间定位。实验结果表明CNN和RNN的组合能获得更准确的行为分类和时间定位的结果。3、在目标跟踪模块进行多类型目标的跟踪。本文提出的目标跟踪模型忽略那些预测为同一个对象但帧间距离较远的目标,以提高目标跟踪模块的准确率。同时,本文计算目标跟踪预测边界框和目标检测边界框之间的IoU(Intersection over Union),选择IoU最大值且大于指定阈值的对象类型作为跟踪对象的对象类型,提高跟踪对象的类型准确率。经对比实验表明,DT-3DResNet-LSTM能够有效提高行为识别和定位问题的效果。一方面,和其他行为识别方法进行对比,本文提出的方法具有较高的平均准确度,能够较准确地识别出视频中的特定行为。另一方面,本文提出的算法框架与其他识别方法相比,具有较低的漏检率,能够更全面地检测并识别指定行为。