论文部分内容阅读
视频异常行为事件检测是指利用计算机识别出视频中很少出现或不同于正常行为的视频帧片段,其是新一代智能视频分析系统的一项重点攻关技术难题。当前,视频异常行为事件检测主要存在两个问题:异常行为视频数据较少和不同场景下异常行为定义无法明确区分。现有主要方法是先对正常行为事件建模,然后将不符合正常模型的视频定义为异常,其中基于深度学习的视频空时特征表征学习方法表现出较好地前景。为了对不同场景中的异常行为事件进行检测,根据视频中人群密集程度的不同,本文分别提出适用于高、中、低三种人群密度等级场景的视频异常行为事件检测算法:1.针对高密度人群场景下行人遮挡严重导致表观特征建模难度大等问题,提出一种基于人群密度图的人群异常行为事件分析算法。该算法主要包括人群密度估计和人群异常行为建模两大部分。在人群密度估计方面,本文设计了一种基于多孔卷积的多尺度空间池化模块,并结合单路深度网络增强模型的多尺度特征提取能力。在异常行为建模部分,设计了一种融合人群密度图空间特征和光流运动特征的双流网络检测人群恐慌行为,并利用人群密度的局部空时动态特性实现人群聚集行为的检测。实验结果验证了该算法的有效性,算法中设计的人群密度估计模块在ShanghaiTech人群数据集上的性能处于领先地位。在人群异常事件检测的应用中,本文提出的人群聚集检测算法在PETS2009 S3数据集中达到了97.06%的准确率。2.在中等密度场景下,本文提出一种基于三维卷积神经网络(3D Convolutional Neural Network,3DCNN)和卷积门控循环单元(Convolutional Gated Recurrent Unit,ConvGRU)的视频异常行为事件检测算法,以利用深度网络更好地学习视频的空时表征信息。首先,利用浅层3DCNN对视频中的局部表观和短期运动特征建模,接着用ConvGRU提取视频的全局表观和长期时序特征。然后用多层3D反卷积网络对编码特征重构,以尽可能使重构的视频与输入视频相似,并将重构误差大于设定阈值的视频判定为异常。在训练阶段,本文增加了视频预测分支进行联合学习,以提高模型对时序特征的编码能力。此外,设计了相邻帧平滑损失函数,减缓因时序采样造成的运动干扰。实验结果表明,该方法在UCSD数据集和CUHK Avenue数据集中取得良好性能。3.由于低密度场景下的行人数目较少且遮挡不严重,基于行人像素特征建模的方法存在精度较低和鲁棒性差等问题,本文提出一种基于图卷积(Graph Convolution Network,GCN)的人体暴力行为检测算法,以实现稀疏场景下的人体暴力行为识别。首先,设计了一种人体姿态序列生成模块以提取视频中各人体的骨架序列,该模块由多目标检测跟踪框架和单人姿态估计模型构成。接着,提出了一种基于关节点置信度的人体姿态特征自适应采样方法,用以剔除姿态序列中不够鲁棒的姿态。然后,将人体骨架序列送入到由多层空时图卷积(Spatial-temporal GCN,STGCN)构成的动作识别模块中,该模块利用GCN自动学习出人体行为的骨架表征特征并实现动作的分类。此外,本文建立了一个面向真实监控场景的行人异常行为检测数据集(AAD)。实验结果表明,该算法能有效识别出行人暴力异常行为,在AAD数据集上初步达到了90%的准确度。