论文部分内容阅读
监控视频中的群体异常行为检测是智能监控系统中的一个关键问题,也是计算机视觉领域内的一个研究热点。对于非拥挤场景,由于前景简单,群体异常行为检测识别较为容易。在拥挤场景下,由于背景杂乱,许多运动目标和事件会同时发生,极大地提升了群体异常行为检测的难度。在本文中,针对拥挤场景下的群体全局和局部异常行为检测问题,重点研究群体行为基本表示和异常行为检测模型,目的是提升群体异常行为检测的鲁棒性和准确性。主要的成果包括:(1)提出了最大光流投影直方图(Histogram of Maximal Optical Flow Projection,HMOFP)。光流作为一种低层视觉特征,在描述群体行为基本表示中具有明显的优势。为了解决背景噪声等对光流特征的干扰,突出群体正常状态和异常状态下运动特征的差异性,在对光流矢量按区间进行统计时,选取该区间内所有光流矢量在区间角平分线上的最大投影向量作为该区间的运动特征,从而消除区间内包含噪声在内的幅值较小的光流产生的不利影响。结合支持向量机,验证了提出的HMOFP在异常事件检测中的优越性和有效性。(2)提出了基于训练样本集合优化的字典构建方法。为了提升稀疏重建字典的鲁棒性,减小字典训练计算量,我们将训练样本集合的优化和字典学习相结合。在字典学习之前,将训练样本集合中那些从未用于除自身之外的其它样本表示的样本去除,从而获得紧致的、更具代表性的正常样本训练集合。在此基础上,兼顾训练速度和检测准确率,利用完善和改进后的在线字典学习(Online Dictionary Learning,ODL)获得稀疏重建所需要的字典,进一步提升字典对群体正常行为的稀疏表示能力。(3)提出了一种低秩结构约束下的异常行为检测模型。在构建字典的过程中,基于训练样本集合中群体行为基本表示的低秩性,引入-范数和核范数联合极小化,使得训练样本重构系数向量紧致地分布在某一个中心周围。在检测过程中,由于重构系数向量分布的约束,使得正常样本的重构系数向量能更加紧致地分布在该中心周围,减小正常样本的重构误差,而异常样本的重构误差则将进一步增大,提升模型对群体异常行为检测的准确率。(4)提出了一种基于深度学习的群体全局异常行为检测框架。结合卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)的变体-长短时记忆网络(Long Short-Term Memory,LSTM),提出了基于预测的深度神经网络。将CNN输出的图像特征代替传统的手工设计特征,利用LSTM网络得到视频片段中下一帧的预测特征,最后计算CNN特征与预测特征误差,根据误差的大小从而判断被检测帧是否异常。图92幅,表14个,参考文献191篇。