论文部分内容阅读
随着与城市公共安全相关的大规模摄像机监控网络的建设和完善,对摄像机监控网络下的特定行人目标进行再标识(Re-identificaiton)*与搜索变得越来越重要。跨摄像机行人再标识是从大量的候选行人图像或视频中,识别出包含某个特定行人的图像,从而有助于寻找其在整个摄像机网络中出现的时空线索,并针对该目标建立不同场景下的语义关联关系。该技术对多摄像机目标跟踪、生物特征识别、智能人机交互以及监控视频的语义分析等应用具有重要意义,是近年来多媒体信号处理与模式识别领域的热点研究方向之一。但是,由于行人图像受场景光照、背景干扰、观测视角、摄像机内部参数及人体姿态等种种因素影响,自动地实现不同摄像机下行人图像的正确标识难度很大,尤其是随着监控网络中摄像机数量的增多,问题的复杂性进一步提高。基于上述问题,本文对跨摄像机行人再标识中的摄像机上下文信息利用、距离度量设计与学习及行人图像表示进行了研究。首先,本文提出了基于多任务距离度量学习的跨摄像机行人再标识框架。该框架首先考虑摄像机网络上下文信息,为每一对摄像机设计一个马氏距离度量。在此基础上,我们提出了基于多个距离度量学习的摄像机网络下行人再标识方法。然后针对过拟合问题,借鉴机器学习中多任务学习的思想,把多个距离度量学习的问题建模成一个多任务距离度量学习问题。此外,为了验证本文所提出的基于多任务距离度量学习的跨摄像机行人再标识框架,针对现有行人再标识数据库中正确匹配对稀疏的特点,本文对机器学习中的多任务大间隔最近邻距离度量学习方法进行修改,提出了一种基于成对约束的多任务大间隔距离度量学习方法。实验结果表明,相对于传统的基于单个距离度量学习的摄像机网络下行人再标识框架,基于多任务距离度量学习的摄像机网络下行人再标识框架表现出了显著的再标识性能提升。在基于多任务距离度量学习的跨摄像机行人再标识框架基础上,考虑到行人再标识是最近邻分类问题以及现有行人再标识数据库中正确匹配对稀疏的固有特点,本文进一步提出了多任务最大塌缩距离学习模型,并给出了基于轮换优化方法和基于Nesterov优化方法的求解方法。除了保持最大塌缩距离度量学习模型的原有优点外,该模型还具有两个良好的数学性质,使其便于优化。第一,多任务最大塌缩距离学习模型的目标函数关于待学习的多个半正定矩阵是凸函数,该性质保证在理论上可以找到最优解;第二,在使用轮换优化(Alternating Optimization)方法对每一个子问题进行优化时其梯度函数是利普希茨连续,该性质保证子问题适合采用最优梯度下降法进行求解。本文给出以上数学性质的理论证明过程。实验结果表明,针对跨摄像机行人再标识问题,本文提出的多任务最大塌缩距离学习模型的准确率优于目前已发表文献中报告的最好结果,且较第二章提出的成对约束的多任务最大间隔距离度量学习模型,具有明显的提升。最后,针对摄像机上下文信息不可获得及候选集中行人具有多张图像的应用需求,本文提出了一种泛化的陆地移动距离用于行人再标识。首先,该方法考虑样例图像中人体不同区域的判别信息,提出判别的陆地移动距离模型用于匹配人体目标。该模型利用候选集中样例图像数据在语义上的判别信息,通过最大间隔学习方法学习样例图像中所有区域的判别模型。另外,该方法把关于人体结构的先验知识作为匹配人体目标时的空间约束,其中人体结构定义为人体由上半身和下半身两部分组成。在此基础上,本文提出一种基于概率映射图的人体结构表示方法,通过采用贝叶斯方估计法自适应获得每张行人图像对应的概率映射图,同时引入相对熵计算两个待匹配的区域在空间上的不兼容度,并把不兼容度整合到陆地移动距离中的地面距离计算过程中。实验结果表明,相对于原始陆地移动距离,本文提出的泛化的陆地移动距离能够明显提升行人再标识性能。此外,据本文作者所知,在基准行人数据集(ETHZl,ETHZ2,ETHZ3)上,泛化的陆地移动距离获得了优于文献中已报告的最好结果。