论文部分内容阅读
近年来,多媒体和视频应用技术发展的越来越迅速,与人类的日常生活也变得越来越息息相关。同时随着人口的急剧增加,安全性问题也已经受到了更多人的关注。暴力冲突、恐怖袭击以及爆炸事故等突发事件发生时,人力、物力资源会造成大量的损害。如何及时处理突发事件甚至有效防止突发事件的发生成为解决安全性问题的一大关键。虽然现实生活中到处都是监控摄像头,但是现有的异常事件处理技术并没有跟上时代的步伐,未能准确地检测到异常事件。同时用于研究的基准数据集也出现了严重的不足。和正常活动相比,异常事件一般都是很少出现的。传统的视频异常事件检测方法需要大量人工对海量的视频信息进行筛选,并对有用的信息进行分析和处理,这样会导致工作量大大增加,同时也很容易出现检测错误的问题,比如错误的判定异常事件以及错误定位异常事件发生的位置。在研究视频异常事件检测的过程中,现有的异常视频数据集也存在着许多问题,比如异常种类过于简单,存在大量人为伪造的视频以及异常视频序列标注的不准确,这使得最近对这领域的研究进展变得缓慢,因此提出一个新型的大规模的异常视频数据集是很有必要的。视频异常事件检测的研究融合了图像处理,人工智能等先进的技术,能够智能化的对异常事件的出现进行动态捕捉,这样既可以提高检测的效率,又可以节省人力、物力。本论文构建了一个用于研究的异常视频数据集,同时结合强化学习技术,提出了一种解决现有问题的异常事件检测模型。本文的主要研究内容如下:(1)在本研究中,构建了一个用于视频异常事件检测的新型的大规模的视频数据集,数据集也可用于视频分类研究领域。数据集由2000个视频序列组成,包含14个异常类别,比如打架(Fighting)、踩踏(Trampled)、偷窃(Thiefing)等。每个视频序列在视频级别(异常/正常视频,异常类别)上和视频帧级别(异常/正常视频帧)上都进行了标注,同时也把数据集划分成训练数据集和测试数据集,可以更方便的用于研究。本文提出的数据集是目前世界上已知的视频序列数目最多、视频异常种类最多的异常视频数据集。(2)本研究提出了一种高效率的基于强化学习的异常检测模型。在该模型中,首先利用训练好的残差网络去提取视频帧高级别的视觉特征。然后将一组连续的视频帧看作一个组合,把组合中视频帧的特征以及每个视频帧的动作拼接在一起,放进LSTM网络中得到时空特征。最后利用学习到的特征,构造了一个端对端模式的深度强化网络。由于视频异常事件检测是一个和时间序列相关的问题,所以我们把这个问题转化为马尔可夫决策过程,并使用了一个新型的奖励函数来优化整个模型。这是第一个将强化学习和视频异常检测结合在一起的模型,它可以更好的对异常事件进行分析和捕捉。实验结果表明,该模型优于现有的先进的异常检测模型。