论文部分内容阅读
随着智能监控技术的不断发展,视频监控设备被广泛地部署在学校、地铁、道路、工厂、小区等人员密集区域,它们给人们生活带来了安全与方便,但也有不少挑战随之而来,其中之一便是如何从海量的视频数据中检测出人体异常行为。这些异常行为的检测也是目前计算机视觉领域研究的热点和难点。根据拍摄设备的不同,可以把视频分为普通视频和带有距离信息的视频。本论文的研究对象是普通视频,包括近景和远景视频。近景视频是指摄像机与运动目标距离较近的视频,它侧重于人的上肢动作,尤其是手部动作;远景视频是指摄像机与被拍摄目标的距离超过一定范围的视频,它侧重于人的整体运动。本论文的研究工作主要围绕检测近景和远景视频中的异常行为而展开,具体可分为以下几方面。面向近景异常行为检测的肤色分割算法。在近景异常行为检测中,背景信息不但无法提供有效帮助,反而会增加算法后续处理的运算量,为了去除运动目标的背景,本文采用肤色分割的方式获取肤色区域。传统的肤色分割算法主要借助像素点在各个颜色空间下的数值及纹理等特征建立肤色统计模型,但光照和年龄变化容易带来肤色表征变化,单像素点的信息并不能完整地表示它们。因此,论文提出了一种基于堆栈自编码器的肤色分割算法,以肤色块为基本处理单元。实验表明,该算法在多个肤色分割数据集上取得了较好的肤色分割结果。基于肤色分割的近景异常行为检测。论文提出了一种基于肤色分割的近景异常行为检测算法,该算法分为背景去除、手掌定位与追踪、能量检测和运动轨迹识别四个部分。背景去除方面,考虑到拍摄时的光照变化,本文采用基于亮度索引的肤色分割算法:先通过基于自编码器的肤色分割模型获得当前图像中置信度最高的一部分肤色,再采用颜色空间中的亮度分量对这部分肤色信息进行分类,最后在多个亮度索引下分别建立动态肤色分割模型。该模型既去除了背景中的干扰信息,又有利于后续算法快速定位当前图像中的人体肤色区域;手掌定位与追踪方面,在肤色分割的基础上,结合手掌几何特征实现了手掌或手臂的定位,用Camshift算法进行追踪;能量检测方面,对追踪的手掌或者手臂进行光流能量计算,根据其能量是否超过设定的阈值来判断是否为异常行为;运动轨迹识别方面,用改进的动态时间规整算法识别手的运动轨迹。实验表明,论文中的近景异常行为检测算法可以有效地检测出近景视频中的异常行为。面向远景异常行为检测的卷积神经网络模型改进。卷积神经网络(Convolutional Neural Networks,CNN)是一种由卷积层、下采样层、全连接层和分类层构成的深度神经网络。在分类任务中,CNN学习到的高层特征具有很强的区分能力,并在多个分类数据集上超越了传统的人工特征,但在物体检测任务中,CNN存在一些不足。针对这些不足,本文从以下几方面对CNN模型进行了改进:特征融合方面,通过越层连接策略和上下文学习策略实现局部信息与全局信息的融合。越层连接策略是将CNN网络中的低层与高层特征按照一定的比例融合,这样既能保留物体的空间信息,又能保证高层特征在物体检测任务中的主导地位。上下文学习策略是在感兴趣区域池化操作中平行地加入上下文池化操作,将池化产生的特征按一定比例融合,可以实现局部信息与全局信息的再次融合;优化候选区域方面,通过优化可以更精准地找出物体或者异常行为在图像中发生位置。实验表明,该算法在VOC和UCF sports等数据集上取得了较好的结果。基于多流卷积神经网络的远景异常行为检测。在远景行为视频中,场景信息与一些行为有着显著的映射关系。本文将场景识别CNN和行为检测的双流CNN组成远景异常行为识别的多流CNN模型,在基于CNN的场景识别算法中做了以下几点改进:用均匀采样替代原有的随机采样,避免训练数据中出现某一块区域过采样的问题;采用不同的网络提取场景特征与物体特征,并将其融合形成新的场景特征;用场景识别CNN产生的“场景-行为”映射关系表,改善双流CNN的检测结果。实验表明,该算法在UCF101数据集上取得了较好的检测结果。