论文部分内容阅读
随着社会公共安全、智能医疗管理和分析、智能交通管理以及智慧城市管理等领域的迫切需求,视频监控系统已广泛部署于机场、火车站、公路、商场、医院以及学校等场所。同时,由于摄像头、传感器和存储器等设备的迅速发展以及成本的降低,全球每日监控视频数据量以上千PB量级增长。因此,如何从海量监控视频数据中及时检测出与大多数正常事件不一致的少量异常事件,已经成为了计算机视觉和模式识别领域亟待解决的研究热点问题。目前,由于传统方法存在异常的定义模糊、训练样本手工标注工作量大、检测模型泛化能力弱以及实时性差等方面的问题,越来越难以满足视频异常事件检测日益增长的应用需求。自2012年以来,深度学习在计算机视觉、图像识别、语音识别以及自然语言处理等诸多领域都取得了显著成果。通过采用模拟人脑多层结构的方式,深度学习试图学习由多个非线性变换构成的多层神经网络结构,来实现数据从底层到高层的抽象,以挖掘海量数据中的复杂结构。本文将深度学习引入到视频异常事件检测问题中,根据对先验知识的了解程度,围绕视频异常事件检测中常见的特定事件检测、新奇事件检测和异常事件无监督检测三个方面开展研究,取得的研究成果如下:1.针对事先提供正常样本和异常样本的情况,以跌倒事件为例,提出了一种基于深度卷积神经网络(CNN)的特定事件检测方法。该方法将完整的跌倒事件分成站立、下降、倒地和不移动四个动作阶段,并通过观测四个动作阶段的连续发生来判断跌倒事件的发生与否。首先将裁剪好的四个动作阶段视频片段转换成了四类动态图,用以训练一个能进行四分类的CNN;然后,将待测视频转化成一组动态图,并通过训练好的CNN来预测动态图的标签,从而得到待测视频中四个动作阶段发生情况,最后根据观测四个动作阶段依次发生来检测跌倒事件。在四个跌倒数据集上的实验结果证明,该方法能够取得实时、高敏感度和高特异性的检测结果。该方法通过简单的改动后,在两个暴力检测数据集上也取得了高精度检测结果,证明了该方法有较强的泛化能力。2.针对事先仅提供正常样本的情况,提出了一种基于高斯混合全卷积变分自编码网络(GMFC-VAE)的新奇事件检测方法。该方法假设所有的正常样本符合一个高斯混合模型,而新奇样本则无法关联其中的任何一个高斯分量,因此可以通过样本属于各个高斯分量下的条件概率来检测新奇样本。首先,在训练时GMFC-VAE能够学习正常样本的隐层表示,并将其约束成一个高斯混合模型;然后,将待测样本通过GMFC-VAE获得其隐层表示,根据隐层表示计算测试样本属于高斯混合模型的每个分量的条件概率,并采用了一种基于高斯分量的条件概率和先验分布的异常判别准则以检测异常事件。该方法根据RGB图像和动态流图,分别训练了相应的GMFC-VAE,以分别检测外观和运动新奇事件,并将二者融合以确定最终的检测结果。在两个公开数据集的实验结果表明,该方法获得优于传统手工特征方法的检测效果。3.针对没有任何先验信息的情况,即没有额外标注的训练样本,提出了一种基于感知生成对抗网络(Perceptual GAN)的异常事件无监督检测方法。该方法利用生成对抗网络(GAN)中生成器和判别器之间的竞争,生成器不断学习生成异常样本,判别器则学习如何检测异常。首先,假设待测视频样本的初始帧中不含异常事件或者只包含极少的异常事件,取其初始帧训练Perceptual GAN,并引入感知损失(Perceptual Loss)以提升判别器检测性能;然后,直接采用Perceptual GAN的判别器来对待测事件进行检测;最后,将检测出的正常事件对训练好的Perceptual GAN进行微调以更新检测模型。在三个公开数据集的大量实验证明,该方法性能达到了现有无监督检测方法的技术发展水平。