论文部分内容阅读
我国已投入大量资源建设城市视频监控网络,视频监控系统的发展和普及给公安机关侦查破案带来了巨大的方式变革,视频侦查技术得到极大的发展与应用。但是,效果并不等于效益。在实际视频侦查工作中,大量侦查员需要调看案发时间前后、案发现场附近的监控视频,并逐步扩大调看范围,以便从多个摄像头所拍摄的视频中查找同一行人目标的活动画面和轨迹,进而锁定、排查和追踪嫌疑目标。过去,视频侦查工作主要通过人工浏览和研判的方式来发现嫌疑目标,需要耗费大量的人力和时间。公安工作的时效需求推进了行人重识别技术的发展。行人重识别,即运用计算机视觉、机器学习方法判断某个摄像头中的某个行人是否曾经出现在其他的摄像头中的技术,它可以有效帮助侦查人员在海量视频中发现、追踪嫌疑目标,进而提高公安机关破案率,具有重要意义。近年来,行人重识别成为研究热点,在限定仿真条件下已取得非常高的准确率。但是,当条件复杂化后行人重识别能显著下降,这无法满足视频侦查应用的需求。非限定条件行人重识别研究复杂化体现在:特性复杂化、分布复杂化、结构复杂化、表达复杂化。在这四个方面的技术瓶颈表现为:(1)受到环境因素、成像因素等多方面原因的影响,实际视频侦查中行人图像分辨率往往较低,而且分辨率多变。样本特性更为复杂,传统基于单一分辨率距离度量函数辨识能力显著下降。(2)实际视频侦查中,往往无法获得足够多的训练样本,训练与测试样本特征空间分布不一致,训练不全面导致模型不能泛化到新的类别上。样本分布更为复杂,距离度量函数用在未经过训练行人上产生距离度量偏移。(3)交互优化模型依赖于样本全局相似关系,然而实际视频侦查中,排序结果里正样本和全局相似负样本极其稀疏。样本结构更为复杂,基于整体交互的单一排序优化模型失效。(4)侦查员可根据其观察对图像进行语义标记,在行人图像特征表达的基础上增加语义表达。不同侦查员经验不同、关注点不一,导致群智语义冗余、冲突和模糊等问题。样本表达更为复杂,群智语义模糊导致行人融合表达不精确。为此,本文开展面向条件复杂化的行人重识别研究,重点在多维度综合表达、样本自适应动态度量、多模型组合优化、多模态融合表达等四个方面,并取得了如下创新性成果:(1)基于多维综合表达的行人辨识方法。针对特性复杂化,行人图像分辨率多变,单一分辨率距离度量函数辨识能力下降的问题,研究尺度渐变规律,扩展图像分辨率尺度,提出基于多维综合表达的行人辨识方法,将图像单尺度辨识转化为图像多尺度综合辨识,提升行人重识别多分辨率辨识能力。实验结果表明,单一分辨率距离度量函数KISSME在多分辨率数据集下效果明显变差,本文提出方法首次处理多分辨率行人重识别问题,在SALR-VIPeR、SALR-PRID、CAVIAR数据集上效果提升明显。(2)基于跨域特性挖掘的度量调整方法。针对分布复杂化,训练与测试样本特征空间分布不一致,距离度量函数用在未经训练行人上产生度量偏移的问题,研究行人跨域特性,获取图像跨域调整因子,提出基于跨域特性挖掘的度量调整方法,将固定距离度量转化为样本依赖的动态距离度量,提升行人重识别自适应辨识能力。实验结果表明,本文提出方法可有效提升传统距离度量函数方法如马氏距离、LMNN、KISSME的效果,在公开数据集VIPeR、CUHK、PRID上,CMC 值分别提升 3.5-15.2%,2.8-15.1%,1.6-9.1%。(3)基于区域相关反馈的组合优化方法。针对结构复杂化,排序结果里正样本和全局相似负样本极其稀疏,导致基于整体交互的单一排序优化模型失效的问题,研究样本局部结构特性,建立局部近邻相似度和聚类相似度,提出基于区域相关反馈的组合优化方法,将全局交互转化为局部交互,提升行人重识别多模型组合优化能力。实验结果表明,本文提出方法排序优化效果明显优于自动重排方法和基于全局优化的方法;同时,方法每次迭代CMC值均有提升,在VIPeR数据集上分别为15-23%和19-31%,在CUHK数据集上分别为9-29%和 11-34%。(4)基于跨模态一致约束的语义融合方法。针对表达复杂化,待融合的群智语义冗余、冲突、模糊,导致行人融合表达不精确的问题,研究群智语义融合机制,挖掘视觉特征表达和语义表达关系,提出基于跨模态一致约束的语义融合方法,在视觉特征行人表达上补充语义表达,提升行人精确表达能力。实验结果表明,提出方法在群智语义整合、语义融合补充、语义间匹配等阶段均有效,将提出的行人语义表达方法和原有行人特征表达方法融合,在VIPeR数据集上,排名第一的CMC值可达67.78%,为现有研究的最高检索准确率。综上所述,本文通过复杂化行人重识别限定条件,面向视频侦查技术瓶颈,完成行人重识别技术中的多维度综合表达、样本自适应动态度量、多模型组合优化、多模态融合表达等方面理论研究,在基础理论和关键技术方面的研究成果可为解决行人重识别在实际视频侦查中应用提供新的途径。