论文部分内容阅读
随着公共安全领域视频监控系统的快速发展,人们对行人重识别的研究也越来越深入。行人重识别是指在某一个摄像头下给定目标行人,然后通过算法在其余摄像头下对该目标行人进行重识别。但是行人重识别算法的性能容易受到尺度、光照、视角、姿态变换及遮挡等因素的影响,这些因素导致行人重识别难以在安防中广泛应用,所以开发先进的行人重识别算法和技术就有着至关重要的意义。相对单幅图像,视频序列包含更多的可以用来提高行人重识别性能的时域信息,但在行人重识别的匹配过程中如何对时域信息模型化是一个挑战性的问题。LSTM(Long Shot Term Memory)网络可以很容易记住序列数据的长时间相互依赖性,Zhang等人[32]于2017年提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)和LSTM相结合的图像到视频的行人重识别方法,该方法取得了很好的性能。尽管LSTM网络能够积聚视频的序列信息,但缺陷之一是LSTM的输出更偏向于网络中时间步偏后的数据。在实际的监控视频中行人存在可能走进遮挡物也可能走出遮挡物的情况,当半进入遮挡物时利用LSTM模型会造成目标的LSTM特征包含进入遮挡物之后的信息;当半离开遮挡物时利用LSTM模型会造成目标的LSTM特征包含离开遮挡物之前的信息。这两种情况所生成的LSTM特征都会影响行人重识别的性能,为了克服上述情况,本文提出了一种自适应预测模式选择网络(Adaptive Prediction Model Selection Network,APM-Net)来对行人未遮挡、半进入遮挡、半离开遮挡三种模式进行预测,通过预测模式来对前向LSTM和后向LSTM网络特征进行自适应选择,从而提高特征的区分性而改善识别性能。本文方法主要由特征提取和距离度量学习两个部分组成。特征提取部分包括:①对连续视频序列中的每一帧进行LBP&Color特征提取;②将连续视频序列所提的LBP&Color特征作为输入送入前向和后向LSTM网络,得到前向LSTM和后向LSTM输出特征;③通过APM-Net网络来对所得到前向和后向LSTM特征进行自适应选择得到视频帧特征。距离度量学习部分以两组行人视频特征作为输入,通过XQDA距离度量学习来判断对应的行人是否为同一行人。把本文方法在iLIDS-VID和PRID 2011两个标准行人数据集上进行了测试。其中在存在遮挡情况的数据集iLIDS-VID上,本文方法rankl的取值为54.93%,比RFA-Net方法高出了 4.53%,比双向LSTM特征方法高出了 3.2%。实验结果表明,本文所提出的基于自适应预测模式的LSTM网络行人重识别方法针对于遮挡情况有着良好的重识别性能。