论文部分内容阅读
近年来,由于行人再识别技术在智能监控系统中具有较大的应用意义,该问题已成为目前计算机视觉研究领域的重点和热点之一。行人再识别问题的任务是:判断某个摄像头拍摄到的目标行人,与在不同时刻被另一非重叠视域的摄像头拍摄的行人是否为同一人。目前,行人再识别问题可以从广义上分为以下三类:基于图像的行人再识别、基于视频的行人再识别以及基于场景图像行人搜索。基于图像的行人再识别主要使用摄像头中采集的一张或少量几张的行人图像进行匹配识别。而基于视频的行人再识别则使用包含更多时间运动信息的行人视频序列。在基于场景图像的行人搜索任务中,除了要解决行人再识别问题,还要解决行人检测问题,即目标行人在整个场景图像中的定位问题。行人再识别问题的解决主要存在以下几个难点:光照变化的干扰、行人间的遮挡干扰以及对行人的检测不准确性。本文以上述三类任务为线索,针对它们各自独有的问题特点,构建基于深度学习模型的行人再识别系统。本文的主要研究内容和创新点如下:1.在基于图像的行人再识别方面。本文基于视觉注意力机制,提出了端到端的比较性视觉注意力网络(end-to-endComparativeAttentionNetworks,CAN)。该方法采用三分支的深度神经网络框架,模拟人类的视觉注意力机制来比较发现行人图像对中多个具有区分性的局部区域,最后再进行区域特征提取并整合,从而提高了基于图像的行人再识别识别准率。2.在基于视频的行人再识别方面。为了充分利用行人视频序列中携带的时间运动信息,本文提出一种时间-空间双分支网络结构的端到端深度模型,称为运动上下文累积网络(Accumulative MOtion Context Networks,AMOC)。该模型能够自动地从原始视频序列帧中学习外观-运动特征,并且以循环递归的方式不断地对有效的时间-空间信息进行选择性累积,最终构成具有高区分性的行人序列特征。在三大标准数据集上的分析实验验证了 AMOC的有效性。3.在基于场景图像的行人搜索方面。在整个场景图像内进行行人搜索是行人再识别领域的一个新问题。本文受到人类从人群中寻找目标行人的注意力收缩机制启发,设计了可以边定位边匹配的一段式行人搜索深度模型:神经网络行人搜索机(Neural Person Search Machines,NPSM)。NPSM 具有独特的记忆单元,以待查找的目标行人作为记忆,引导模型将搜索的关注区域从整个场景图像逐渐递归收缩到目标行人区域。实验结果表明,该方法很好地利用了视觉注意力的集中过程,从而提高了行人搜索的准确率。