论文部分内容阅读
行人精细化检测和行人多属性识别为智能视频分析提供了有用的线索,引起了人们对智能视频监控分析和行人重识别等领域的浓厚兴趣,在智能视频监控和以安全为中心的计算机视觉系统中起着至关重要的作用。行人精细化检测能定位静态或动态的行人图像中的部件信息,例如头、上身、下身、鞋子、背包、帽子。行人多属性识别能识别行人的属性信息,例如性别、发型、上衣类型、下衣类型、鞋子类型和动作等。卷积神经网络(Convolutional Neural Networks,CNN)能自动学习图像的特征,被广泛的应用于计算机视觉任务中。但是在复杂的监视场景下,如何学习行人部件和行人属性的细粒度特征仍然是一个具有挑战性的问题。因此,基于深度卷积神经网络的实时目标检测研究与应用具有广泛的研究价值和应用前景,特别是针对行人精细化检测和行人多属性识别。本文的研究内容是行人精细化检测与行人多属性识别,主要分为如下几个方面:(1)针对检测行人的精细化目标比较困难的问题,本文提出了一种新的基于深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的框架MSF-ACNN。该框架使用级联的空洞卷积和多尺度特征融合,用于提高小目标检测的准确性。空洞卷积在不增加参数和计算量的情况下,有效地增大了卷积核的感受野并保留目标的上下文信息以提高小目标的精度。多尺度特征融合从低级和高级特征图中获得更有意义的细粒度信息,并且可以处理任意尺度的图像。研究结果表明,相比目前最先进的方法,MSF-ACNN可以获得更好的均值平均精度(mean Average Precision,m AP),更快的检测速度,更有效的检测鞋子、背包和帽子等行人的小目标。(2)为了能够准确的识别行人的细粒度属性,本文提出了一种基于DCNN的MSE-Net框架。该框架采用MLSC(Multi-level Skip Connections)模块获得低级和高级特征中的更有意义的细粒度特征,并保留了行人的眼镜和配饰等细粒度属性特征的上下文信息。SE-block(Squeeze-and-Excitation Block)模块增强了网络对信息的敏感性,压缩了特征,使网络具有全局的感受野,能够通过学习的方式来自动获取每个特征通道的重要程度,最后根据这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。实验结果证明,MSE-Net框架优于行人属性RAP(Richly Annotated Pedestrian)数据集上的最新行人属性识别方法,并且对每个属性中的正负样本的预测结果具有良好的鲁棒性。(3)为了能够同时实现行人的部件检测与多属性识别任务,本文提出了一种基于多任务学习的DCNN框架,其主要思想是将行人身体部件检测任务和行人属性分类任务结合起来对行人进行分析,称为HP-CNN(Hyper-pedestrian Convolutional Neural Network)。HP-CNN框架主要包含SE-block模块和多尺度特征融合模块。SE-block模块可以选择性地强调信息特征,增强网络的表征能力。多尺度特征融合能够连接来自低级和高级的细粒度信息,并增强来自不同卷积层的上下文信息。HP-CNN在权威的RAP数据集上进行了验证与评估。实验结果表明,HP-CNN相比其他方法获得了更好的行人身体部件检测和多属性识别结果,并且身体部件检测任务和多属性识别任务相互协同,显著提高了多属性识别的性能,有效平衡了身体部件检测的速度和精度。