论文部分内容阅读
地铁车站作为城市中场景复杂、人群密度高、客流流动性大的公共场合,安全问题不容疏忽。如何有效地利用地铁车站视频监控系统,在复杂场景下实时检测人群状态,减少群体异常行为带来的损失,具有重要的现实意义。不同于传统动作检测或分类场景,地铁监控视频中存在人群密集,异常行为种类多但数量少等特点,基于全监督学习和无监督学习的行为检测模型均不能很好地满足实际应用需求。因此,本文基于训练集中只需要正常群体行为样本的半监督学习理论来建立群体异常行为检测模型,并用深度学习端到端模型取代了传统的人工选取特征模型。主要工作如下:1.目前主流的异常行为数据集绝大多数来源于国外,与国内地铁车站的实际监控场景有一定的差别。本文在经过实际调研后,选用国内无锡地铁三阳广场站监控视频作为数据来源,自建了无锡地铁数据集。该数据集中场景复杂,人流密集、方向不一且行为多变,能够很好地反映国内地铁车站的真实监控场景。2.利用卷积自编码器具有重构正常样本空间和特征压缩的性质,本文搭建了一种基于卷积自编码器的群体异常行为检测模型。通过时间轴上的滑动窗口选取多张视频帧,将多张视频帧叠加作为卷积自编码器的输入,依据重构误差与阈值的关系来判别是否发生异常行为事件。与传统卷积自编码器模型不同,模型在解码阶段包含两个分支,这两个分支分别用来重构当前的帧序列和重构过去的帧序列。在训练阶段,这两个相关任务通过共享编码阶段的参数来学习正常行为目标的运动趋势,提高了模型的泛化能力。3.卷积自编码器模型通过对不同信道上二维空间中的卷积操作进行叠加来提取运动特征,这种操作并未很好地利用视频中的时序信息。本文在卷积自编码器模型基础上,另提出了一种基于卷积长短期记忆网络的改进模型,通过在空间编码阶段与空间解码阶段之间插入时序编码-解码阶段,对时序信息进行编码和解码操作,更好地提取出视频中时空运动信息。4.针对目前大多数群体异常行为检测模型只能检测出异常行为发生时间,不能具体到异常行为发生区域这一问题。本文提出了一种解决方案,依据模型中重构帧和输入帧之间的重构误差,从热图和散点图两个角度对异常行为发生区域进行定位。通过在CUHK Avenue数据集、UCSD数据集、Subway数据集和自建无锡地铁数据集上进行验证,与国内外经典模型相比,本文提出的两个模型在保证实时性的基础上均具有较大的受试者操作特征曲线下面积值(Area Under Curve,AUC),较小的等错误率值(Equal Error Rate,EER)。同时,异常区域定位方法可以有效帮助监管人员找到异常发生的具体区域,提高了模型的实用性。总体而言,本课题针对地铁应用场景中群体异常行为检测问题做了一些积极的探索,同时为实际应用提供了方法和理论支持。