论文部分内容阅读
近些年来,世界各国特别是人口稠密的国家踩踏事故频发,这些事故多发生在因节日庆祝、宗教活动、体育赛事、交通枢纽等原因人群集聚的城市公共场所。在视频监控中对人群实现精准计数,为以公共安全视频图像处理和分析为核心的新型智慧城市建设提供信息支撑,起到加强城市管理和防范公共危机的作用。此外,人群计数在其他领域的迁移应用,如在交通领域的车辆计数、医学领域的细胞计数、生态领域的物种计数等,也会对整个社会的方方面面产生积极影响。人群计数的目的是在给定场景中统计人数或者进行大规模人群密度估计,其难点之一在于人群个体尺寸变化差异大。随着卷积神经网络(CNN)在视频图片处理任务中取得的优异成绩,奠定了CNN在计算机视觉领域的重要地位。得益于CNN在特征学习方面的优势和性能表现,利用其对人群计数课题进行研究正在并已经成为趋势。本文主要针对人群个体多尺度问题进行研究,具体工作如下:(1)利用系列浅层卷积神经网络SL-Net分别在仿真集、Mall数据集和图书馆视角数据集上用误差指标对比验证了CNN结构中不同尺寸感受野在不同尺度人群个体上的感知差异,得出大尺寸卷积核对特征偏向全局信息的小尺度目标感知能力更强,小尺寸卷积核对特征偏向局部信息的大尺度目标感知能力更强的结论。(2)以VGGNet8网络为原型,在分支结构上做出改进,提出了一种新型的单列多尺度卷积神经网络SCMS-Net,利用多尺度感知模块有针对性地提取尺度相关的特征进行学习。改进还包括对Mall数据集的多尺度增广提升了网络对多尺度目标的适应能力,采用全局平均池化替代全连接层减少了网络参数,向网络中多处引入批标准化操作克服了层数加深而引起的训练变难和收敛变慢的问题。(3)提出了改进版网络SCMS-Net++,不仅利用残差结构实现了多尺度特征的等效融合,进一步提升了网络对多尺度目标的感知能力,还实现了多尺寸输入。(4)对设计和改进的网络进行了有效性验证,对比每一阶段改进的效果,最终的网络SCMS-Net和SCMS-Net++被证明在准确性和稳定性上优于大部分现有的在Mall数据集上测试过的人群计数网络,而与主流复杂的多列网络结构和多网络混合结构相比,本文的单列网络更易被训练和优化,节省训练时间和计算资源,具有重大的现实意义和应用价值。综上所述,本文提出了从横向结构上实现对多尺度特征提取和更多尺度特征等效融合的单列人群计数CNN网络,为多尺度卷积神经网络的设计提供了新思路。