论文部分内容阅读
目标检测和搜索问题具有广泛的应用场景。然而,现有的检测和搜索算法往往基于封闭条件进行设计,忽视了开放环境下的应用需求。其中,目标检测算法常假设训练测试数据分布相似,忽略了实际运用场景的复杂性,缺少对不同环境的适应能力。目标搜索算法仅考虑前景信息,忽视了图像的复杂性,忽略了目标检测作为其前置任务的重要性。本文主要研究开放场景下的目标检测和搜索任务,通过跨域目标检测和多任务集成学习提升模型对环境的适应能力。本文主要有以下学术贡献:(1)提出了源域引导的多层级对抗跨域目标检测模型传统检测模型忽视了环境变化导致的图像分布差异,进而将其反应到特征上,导致模型环境适应能力差。为此,本文提出多层级对抗域适应模型以实现不同层级的域间差异最小化。具体来说,为了对不同卷积块中的特征进行混淆,本文提出了多层级对抗模块并设计了尺寸缩小模块以提升训练效率;为了实现目标层面的语义对齐,本文进一步提出了特征融合对齐模块并设计了加权梯度反转层以实现对难样本的学习。通过多层级对抗域适应学习,显著减少了域间差异,提升了跨域目标检测的精度和环境适应性。多层级对抗缩小了域间差异,但忽略了模型可迁移性。跨域目标检测中的目标域由于缺乏标签而特征分布杂乱。在对抗学习过程中,源域分布会靠近目标域,使其判别性特征分布被破坏,进而导致源域崩塌,影响模型可迁移性。为了在缩小域间差异的同时,保持模型可迁移性,本文提出了源域引导的训练策略。具体来说,通过知识蒸馏算法,利用源域预训练模型提供的分布信息对模型进行监督,进而帮助模型保持较好的源域分布,保证其可迁移性。此外,为了获得更好的特征边缘分布,本文提出了双判别器特征混淆模块以分离前景背景样本。最终,本文提出的源域引导多层级对抗模型可在缩小域间差异的同时,保持模型可迁移性。(2)提出了部分对齐的非对称三路检测网络对抗学习虽然减小了域差异,但也会影响模型的可迁移性。传统共享参数的网络会累积对抗学习产生的源域扭曲,造成模型可迁移性下降。同时,特征之间域差异难以完全消除,残留的域差异也会影响模型的效果。为此,本文提出了非对称的三路网络结构。具体来说,其中参数独立的辅助网络可以免受源域崩塌的影响,进而保证模型可迁移性。同时,辅助网络提供的辅助目标域样本调整了检测器的判决边界,缓解了残留域差异带来的影响。最终,模型在跨域目标检测任务中取得了更好的效果。然而,现有的基于对抗学习的域对齐方法均面向图像的整体特征。由于特定环境下采集的数据包含不适用于其他环境的私有信息,对特征进行整体对齐会强迫目标域特征包含源域私有信息,导致负迁移。为此,本文提出了部分对齐的特征混淆策略。具体来说,为了在训练过程中实时定位并对齐域共有特征,本文提出了域间对抗模块。为了分离域共有特征和域私有特征,本文基于互信息量理论提出了域内对抗。通过结合域内对抗和域间对抗,模型实现了域私有特征和域共有特征的分离,避免了负迁移的发生。(3)提出了“分而治之”的端到端“检测-匹配”集成网络图像搜索模型传统的目标搜索模型忽视了图像中的大量背景信息而独立进行设计,这使检测-匹配算法之间的耦合性不佳,难以取得较好的搜索效果。为此,本文提出了一种端到端的“检测-匹配”多任务集成网络,通过端到端多任务联合训练,提升检测和匹配任务的耦合程度。为了解决端到端训练中样本数目不足的问题,本文采用双路网络结构,在增加输入样本的同时,丰富了样本配对方式。为了训练特征度量,本文提出了在线匹配损失和难样本优先损失,通过特征存储增加训练样本数量。结合网络结构和损失函数的改进,模型实现了端到端多任务训练并取得了较好的实验结果。进一步研究发现,检测和匹配任务具有不同的关注点,即检测任务关注前景和背景等局部信息,而匹配任务更加关注前景的高级语义之间的差异性。然而,上述端到端集成模型利用相同的特征同时实现检测和匹配任务,从而增加了模型的训练难度。为此,本文提出了“分而治之”的网络设计思想。具体来说,通过在不同任务间共享浅层网络,分离深层网络,同时提升了检测-匹配任务的精度。此外,由于输入样本类别过少,难样本优先损失函数更新缓慢,本文进一步提出了一种基于特征中心的难样本优先损失以提升训练效率。结合损失函数和网络结构的改进,模型在目标搜索任务上取得了更好的表现。