论文部分内容阅读
行人再识别是计算机视觉领域的一个新兴研究课题,旨在给定某个监控摄像机下的行人图像,利用行人的外观特征,从不同的、没有视野重叠覆盖的摄像机拍摄的行人图像集合中准确地检索到该特定行人。行人再识别技术可广泛应用于智能安防、智能交通、智能购物等视频监控场景,有着非常重要的科研价值和实际应用意义,因此得到了计算机视觉社区越来越多的关注。近年来,大量的学者将以卷积神经网络为代表的深度学习算法引入到行人再识别问题中,这类基于深度学习的方法通过端到端的卷积神经网络,以“特征提取+损失函数优化”的方式学习到更鲁棒的且更具判别性的特征映射,部分解决了一些传统方法无法很好解决的问题,带来了行人再识别性能的极大提升。然而,基于通用的卷积神经网络框架的行人再识别算法仍面临一定的难题,例如对具有强判别性的行人局部细节特征不够敏感等。因此,本文面向行人再识别这一极具研究和实用价值同时又极具挑战性的热门问题,基于当今流行的卷积神经网络技术,围绕相同的核心主题—“让卷积神经网络更显著地关注具有强判别性的局部细节特征”,从融合多层相似度感知约束、利用高层特征图强激活值区域信息以及构建基于采样的尖锐注意力机制三个不同的角度提出了更优的行人再识别算法,具有重要的理论研究意义和工程实用价值。具体地,本文三个研究工作的主要内容和贡献如下:1、提出了一个基于深度孪生神经网络和多层相似度感知的行人再识别算法。在训练阶段,根据不同层次上多样化的特征图各自不同的特点,有效地在低层和高层特征图上分别施加了不同的相似度约束。由于这种适应于不同层次特征图的恰当的相似度比较机制的引入,该算法能够自适应地分别学习到更具有判别性的局部和全局特征。其中,学习到的局部特征能够更敏感地定位对识别跨摄像头的同一个人至关重要的显著局部区域。除此之外,该算法还有两个额外的贡献。首先,该算法提出了一个多任务学习框架来同时优化分类约束和相似度约束。多任务学习可以在解决的多个任务之间共享信息,集成它们各自的优点。其次,因为相似度比较信息已经编码在网络的可学习参数中,在测试阶段,该算法不需要成对的图像输入作为先决条件。因此相比于传统的基于孪生神经网络的算法,该算法更为高效,并且可以利用训练好的网络预先地提取候选图像库中每一张图像的特征来建立索引,这对于大规模的行人再识别实际应用是必不可少的。实验结果显示,相比于当时的其它算法,该算法在多个行人再识别基准数据集上取得了更加出色的性能。2、提出了一个无监督地提取并利用卷积神经网络最高一层卷积层特征图中的强激活值区域信息的行人再识别算法。通过观察和实验验证,该算法提取到的强激活值区域信息可以用来表征有抽象语义的局部细节特征,而且提取算法是无监督的,不需要利用额外的监督信息。进一步地,该算法提出了一个融合了全局信息和局部特征的深度特征映射模型,该特征模型可以有效地增大类间方差和类内方差之间的差距,因此显著地提升了检索性能。该算法不仅适用于行人再识别问题,而且适用于更大范围的细粒度检索问题。实验结果表明,该算法在行人再识别任务和细粒度检索任务上均优于当时的其它相关算法。3、提出了一个基于尖锐注意力机制的行人再识别算法。该注意力机制可以直接从卷积神经网络特征图上进行自适应采样来获得注意力感知掩膜。由于这一基于采样的注意力模型的引入,该算法可以自适应地产生更尖锐的注意力掩膜。这与基于软的可微门控函数来提取与再识别相关的局部特征的软注意力网络模型有很大的区别。软注意力网络通常使用Sigmoid函数将掩膜值平滑归一化到[0,1],该过程得到的掩膜往往存在一定的语义不确定性;与之相反,该基于采样的注意力机制可以通过迫使特征掩膜聚焦到最具有判别性的特征上的方式(也即掩膜值接近于非0即1)来消除对于再识别无关/冗余的特征。因此,该算法改进了传统的软注意力模型,可以更坚定自信地定位出对识别同一个人至关重要的细微局部特征,有效地减少了注意力特征的不确定性。为了达到这一目的,该算法使用了一个可微的Gumbel-Softmax采样器来近似伯努利采样,因此可以通过反向传播以端到端的方式进行尖锐注意力网络的训练。相比于基准算法和其他相关的算法,该算法在行人再识别领域广泛使用的几个大规模的数据集上取得了显著的性能提升。