论文部分内容阅读
行人重识别(Person Re-ID)由于其在安防、商业等领域的重要作用,正吸引着越来越多的研究兴趣。通常情况下,研究人员将针对特定行人的图片或视频检索问题称为”行人重识别”。作为图像和视频检索任务的子问题,给定特定行人的一张图片或一段视频,行人重识别的任务是自动地在跨设备的情形下检索和匹配该行人的其他图片或视频。有别于人脸识别,行人重识别并不依赖清晰的面部细节,从而能在普通环境下拥有更为宽松的应用场景。然而,由于摄像头间光照、分辨率等方面的差异以及行人间视角、姿态等属性的不同等因素的影响,行人重识别仍是一个尚未解决、极具挑战的研究方向。针对行人重识别过程中最为棘手的行人视角不一致问题,本文显式地考虑了行人自身的视角信息,并提出了一种创新的基于深度残差等变映射和细粒度特征的视角鲁棒的行人重识别方法(Viewpoint-robust Person Re-identification via Deep Residual Equivariant Mapping and Fine-grained Features,DREMFF)。本文的主要贡献如下:(1)基于深度模型迁移的行人视角估计行人所处的视角状态往往对其外表的视觉表现有着显著影响,因此包含着重要的信息。然而,当前主流的行人重基准数据集都缺少关于行人视角信息的标注。为了迈开第一步,获取这些常用行人重数据集中的行人视角信息,本文以深度模型上的迁移学习为基础巧妙地设计了一个轻量的行人视角估计模块。为了能利用相关带行人视角信息标注的数据集,本文也遵循同样的约定将行人视角划分为前,后,左,右这四个粗粒度的标准状态。经过这个包含行人视角信息标注的数据集训练后,行人视角估计模块将被固定以估计目标数据集上的行人视角。与人工标注只为每个行人指定一个视角标签不同,在实际运行中,行人视角估计模块将同时给出当前图片中行人对应前,后,左,右这四个标准视角各自的概率,这使得本模块具有了描述诸如右前方等非标准视角的能力,能够为后续步骤提供更丰富、精准的视角信息。(2)基于深度残差等变映射的行人特征纠正现有的行人重识别方法通常直接计算行人图片间的相似度而不管行人所处的视角。但是,匹配位于不同视角下的行人是困难的,因为从本质上讲直接学习对重度视角变化几何不变的特征是有挑战的。然而有研究表明,随着同一个输入物体视角的变化,深度神经网络中大部分层的对应特征也在有规律地变化,且这种变化能以简单线性变换的方式从训练数据中学得。因此本论文假设在同一个行人的不同视角之间存在着内在的映射关系,并据此提出了一种跨视角特征纠正方法。该方法结合前面得到的行人视角估计信息,使得同一个行人在不同视角下的全局特征间的差异能够通过适应性地向原始特征中添加残差这一等变映射的方式被消除。(3)基于注意力机制的行人细粒度特征提取目前大部分的行人重工作都偏向关注行人的整体外貌,而忽视了行人的局部细节。但是,在现实场景中,不同的个体由于穿着类似等原因仍然可能有着极其相似的整体外貌,这极有可能给只基于行人整体特征的行人重识别系统带来假阳性的问题。因此,本论文设计了一个基于注意力机制的行人细粒度特征提取模块。该模块能以极低的计算量自动地为行人图片确定多个不同尺度的显著性区域并从这些区域提取对应的局部特征。这些捕捉到的特征能够在更低的粒度上为整个行人重识别系统提供辅助决策。映射后的全局特征以及学习到的细粒度特征一道促成了视角更鲁棒的行人重识别。实验部分,三个最为常用基准数据集上的一系列对比实验有力表明了本文所提方法的有效性。最后,本文同时总结了本工作的优点与不足,也对行人重未来的发展发表了自己的看法。