论文部分内容阅读
随着物质生活水平的提高,世界人口不断增加,人们社会活动越来越密集,如机场、车站、大型商业中心等,这给公共管理和公共安全带来了巨大挑战。而当下视频监控多为值守人员长时间盯守,而值守人员长时间工作容易产生疲劳现象,这就会疏漏异常事件的发生,并且对已发生事件无法及时预警。因此,需要设计一个能够自动监控人群动向、对人群密集程度自动分析、及时预警危险事情的智能系统,这对重大公共安全事件和商业分析都具有重要现实意义。近年来,人群计数算法开始结合机器视觉技术和深度学习技术并取得重大突破。但是目前取得较好发展的人群计数算法都是针对室外场景,针对室内场景下人群计数和密度估计研究都是借助人脸识别或者行人识别。但室内监控相机安装角度多样、室内人群分布不均匀,使得人脸识别和行人识别算法具有较大局限性。因此,本文采用深度卷积神经网络技术,利用人头检测思路突破其他检测方法在室内场景下的局限。首先实现室内人群检测,再根据检测结果计算人群数量和回归人群密度图。但室内人头检测依然存在以下挑战,为此本文提出了不同的解决思路:(1)由于摄像头安装角度问题,导致室内人头目标尺度分布不均,尤其是远离摄像头部分,尺度小,且人群密集,很容易造成模型漏检率高的问题。因此,本文利用空洞卷积操作扩大感受野,增加网络对不同尺度覆盖,构造了一种可以提取多个尺度的特征提取模块。同时,根据不同尺度特征在网络层中的传播特性,设计了不同尺度等级的特征融合模块,对不同尺度分布的特征层进行融合。(2)由于个体自由度高,导致人群分布杂乱且密度差异大,采用固定卷积核的网络会由于样本特征分布不均匀产生发散结果。因此,本文利用空间注意力模块提取全局信息,设计了一种层注意力模块融合全局和局部信息,提取目标分布信息,从而实现人群检测和计数。(3)室内场景背景复杂,人头的颜色、形状等低级特征容易和背景中其他物体重叠,导致人群检测的误识别率增加。本文根据分析将背景特征对人头的干扰分为两类:一类是人体外其他背景物体的特征干扰,我们构造了一种混合注意力模块,用于指导网络增强对目标区域的关注;一类是人头本身差异性导致的特征干扰,我们构造了一种中心感受野模块,来模拟人眼视觉感受野对目标进行关键特征提取。由实验结果显示,本文提出的方法相比同类其他检测和计数算法,在召回率和人数统计准确率和计数的相关指标上均实现很大提升。为深度卷积网络在智能视频分析领域的研究提供了不同设计思路。