基于无监督域自适应的行人重识别研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:fengwei27149
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能视频监控的不断发展,行人重识别研究受到了工业界和学术界的广泛关注。行人重识别旨在完成不同相机下相同身份的行人图像关联任务。当前,大部分的研究工作主要关注有监督的场景,即给定的训练数据都拥有身份标签信息。然而,这些方法依赖于大量昂贵的标签数据,并且要求训练和测试数据必须来自相同的相机网络或者相同的数据集。当这些行人重识别模型直接的应用于不同的数据集时,性能将会出现严重的下降。这极大的限制了处理现实任务的泛化性能力。因此,行人重识别引入了无监督域自适应的方法,将有标签源域上训练的模型迁移到无标签目标域上。与传统的无监督域自适应方法相比,无监督域自适应的行人重识别是一个更具挑战的开放集识别问题。源域和目标域包含各自独有的类空间,基于特征分布对齐的方法不适合开放集的应用场景。此外大多数的方法只考虑了整体域间的分布迁移,却忽略了目标域内存在的各种变化。每个数据集都由多个风格迥异的相机拍摄完成。相机的视点、光照和背景等因素使得目标域的数据分布存在很大的差异,这给跨相机行人检索带来更大的挑战。本文针对无监督域自适应的行人重识别任务中源域和目标域间的分布迁移以及目标域内的剧烈变化等问题展开深入研究,论文的主要研究内容如下:(1)提出了基于分块模型的特征解纠缠(Patch-based Feature Disentangling,PFD)损失的无监督域自适应算法,首先引入局部块生成网络(Patch Generation Network,PGN),对于每幅行人图像可以生成具有判别性的局部特征块。在无监督域自适应的行人重识别任务中,分块模型比整体图像模型更有优势,将相似的局部块拉近可以挖掘潜在判别信息,并可以协同多个局部块共同判别行人身份。然后,基于表示学习的原理设计了PFD损失,假设特征距离较近的样本共享相同的身份标签,为每个行人局部块构建纠缠空间,逐渐的解析出高置信度的正负行人样本。最后,在特征空间中将相似度高的局部块拉近,并将相似度低的局部块推开,使模型可以在没有身份标签的情况下也能很好地适应目标域。(2)提出了基于轨迹和相机标记的差异分布对齐(Tracklet and Camera Discrepancy Distribution Aligning,TC-DDA)的无监督域自适应算法,以改善源域和目标域数据分布的剧烈迁移。通过将公共特征空间转化为差异特征空间,执行域间差异特征分布的对齐。即使源域和目标域由于类空间不同导致公共特征空间不同,新的差异特征空间只有类内和类间簇。此外,鉴于行人重识别本质为跨相机的行人检索任务,源域和目标域包括多个风格迥异的相机。利用轨迹信息和相机信息将差异特征分布标记为类内/类间和相机内/相机间分布,并引入最大平均差异(Maximum mean discrepany,MMD)来对齐源域和目标域相应的分布。(3)提出了基于相机感知邻居挖掘(Camera Aware Neighbor Mining,CANM)的无监督域自适应算法,以缓解目标域内的剧烈变化。除了开放集特性外,行人重识别的数据集具有域的层次结构,源域和目标域可以划分为多个相机子域。相机间匹配的行人特征相似度要远小于相机内匹配的行人特征相似度。因此,相机内匹配的行人样本更容易占据排列表的前列,无论其归属于正样本还是负样本。首先将邻居挖掘分开的约束在相机内匹配和相机间匹配。此外,由于相机风格的差异,导致相机间行人的邻居挖掘难度进一步加大,相机间的邻居挖掘比相机内的邻居挖掘更容易导致偏差的搜索。在相机间的邻居挖掘利用解纠缠策略,解析出高置信度的相机间匹配正样本和负样本,从而优化目标域内的行人匹配结果。综上所述,本文使用了PGN网络模型,提出了PFD、TC-DDA和CANM等算法用于改进基于无监督域自适应的行人重识别性能,并通过在多个数据集上的大量实验论证了所提算法的优良性能。同时,本文提出的算法在保证识别精确性的同时,可以满足现实任务对泛化性的需求。
其他文献
多目标优化问题(Multi-objective optimization problems,MOPs)在科学研究和工程领域广泛存在,研究者提出了许多经典多目标演化算法(Multi-objective optimization evolutionary algorithms,MOEAs)来求解MOPs,且取得了一定的成效。然而,MOEAs无法在求解决策变量数大于100的大规模多目标优化问题(Larg
学位
人脸检测技术是指一种从给定图像中识别出所有人脸,并返回对应的人脸边界框的技术,是当前计算机视觉领域的热点研究内容之一。目前人脸检测技术已被广泛应用于智能手机的美颜拍照、刷脸支付以及小区的安防门禁等应用场景中。尽管人脸检测技术在最近十多年里已经发展得比较成熟,但它在无约束环境下的性能仍然有很大的提升空间,同时在移动设备上的性能和检测速度也不令人满意。因此,人脸检测技术仍然存在着深入研究的学术价值和工
学位
相比于多目标优化问题(Multi-Objective Optimization Problems,MOPs),同时考虑目标数大于3的高维多目标优化问题(Many-Objective Optimization Problems,MaOPs)更符合实际应用。随着目标个数不断增多以及目标问题的复杂度增加,目前的多目标优化方法无法很好的解决高维目标空间中性能退化问题,如无法很好的筛除性能差的支配抵抗解(D
学位
脑肿瘤是一种常见的神经系统疾病,可分为原发与继发两大类。其中原发性脑肿瘤起源于颅内组织或脊髓病变,而继发性则是由其他器官的恶性肿瘤转移而来。相较于继发性脑肿瘤,原发性的发病率和死亡率更高,其中最为常见是胶质瘤,它起源于颅内胶质细胞的异常增生。尽管神经胶质瘤研究取得了相当大的进展,但患者的诊断仍然很差。准确的脑肿瘤分割是诊断和治疗的前提,这项任务的主要挑战在于胶质瘤及其子区域在外观、位置和形状上具有
学位
分布式传感器网络在单传感器滤波的基础上,利用传感器间通信交换多目标后验分布,对多目标后验分布进行信息融合达到提高多目标跟踪精度的目的。受限于单传感器检测能力、监控视野非完全一致以及复杂环境下目标漏跟或杂波干扰,传感器间滤波后验分布差异较大,直接采用广义协方差交集(Generalized Covariance Intersection,GCI)融合易丢失目标分布信息,探索有效的多传感融合方法仍值得深
学位
视频多目标跟踪是计算机视觉领域的一个重要分支,如今视频目标检测技术日益提高,现有目标检测器对单张图片中的物体类别以及物体位置有较高的识别率,但依然会有漏检测和错检测的产生。针对这一问题,视频多目标跟踪技术可以利用视频上文信息,对目标的运动信息以及外观信息进行建模,并用各自的标签标记身份来记录目标轨迹信息,可以减少检测器的误检测和漏检测问题。同时视频多目标跟踪技术还需解决如何有效识别新生目标、如何进
学位
方面级情感分析是文本情感分析任务的研究重点,其基础子任务包括:目标词抽取、意见词抽取和方面级情感分类。传统的目标词和意见词抽取工作是独立完成的,割裂了目标词与意见词之间的联系。针对上述问题,最近的研究工作提出了面向目标的意见词抽取任务,其旨在根据句子中特定的目标词抽取与其对应的意见词。当一个句子中存在多个目标词时,准确的捕捉目标词和相应意见词之间的联系仍然非常具有挑战性。本文针对面向目标的意见词抽
学位
频繁-高效用项集挖掘作为数据挖掘的一个重要领域,能够帮助用户在数据集中寻找到频繁出现且有着较高效用值的项集。相比于仅关注项集出现的频次或项集的效用,频繁-高效用项集能够满足用户多元的需求。传统算法在求解频繁-高效用项集挖掘问题时,会遇到搜索空间爆炸和参数设计的困难。近期,有学者将频繁-高效用项集挖掘问题定义为一个多目标优化问题,并提出了基于多目标演化的算法来求解此问题。利用多目标演化的方法挖掘频繁
学位
现代社会城市化进程的加快和人均车辆保有率的增长使城市交通管理面临着巨大的压力。随着计算机、物联网技术的快速发展,智能交通系统在城市交通管理和智慧城市建设中发挥着越来越重要的作用。交通流预测是智能交通系统的基础,精准的交通预测对很多应用来说是必不可少的。当前,交通预测仍然十分具有挑战性,主要体现在两方面:一是由于交通网络中蕴含了复杂的时空关联和非线性变化,导致现有模型的预测精度不够理想,尤其是在长期
学位
随着深度学习技术的迅猛发展,深度神经网络已全面应用到图像质量评价中,并且逐渐占据主导地位。深度神经网络可以自动学习出有用的特征,不再需要繁琐的特征工程,并且在图像质量评价任务上取得了超越其他算法的性能,网络性能的强大得益于精心研究和设计的神经网络结构。设计出高性能的神经网络结构通常需要大量的专业知识与反复试验,成本极高,随着网络结构越来越复杂,神经网络结构的设计,也正在从手工设计转型为机器自动设计
学位