论文部分内容阅读
目标检测是计算机视觉领域中的经典课题和研究热点,它在图像理解、视频监控、人机交互等方面有着广泛的应用。近年来,随着多媒体数据的海量出现及深度学习技术的运用,多种算法被相继提出,它们极大地促进了目标检测的发展。然而,实际场景复杂多变,目标或小而稠密,或尺度变化大,或相互高度遮挡。这些因素导致目标检测在局部模块构建、目标区域特征表达、模型架构等核心问题上仍然面临着挑战。研究目标检测问题中的理论和方法,并提出高效的目标检测模型是视觉理解和多媒体应用的迫切需求,因此,本文开展了复杂场景中目标检测理论和方法的研究。针对现有目标检测问题所面临的挑战,本文首先以现有目标检测模型为基础,对类目标窗口生成、端对端的检测模型进行深入探讨;然后进一步围绕对象上下文信息和现有模型的通用性等若干问题展开研究;并且研究了跨场景的目标检测与认证任务。具体的研究内容和创新点包括如下几个方面:(1)针对利用单线索生成类目标窗口缺乏有效指导的问题,本文研究了基于多线索的类目标窗口生成方法。首先定义特征相似性函数,并进行图像相似性排序。然后计算类目标窗口与相似图像的目标窗口的外观和空间匹配度,最后输出高质量的类目标窗口。该方法能够有效排除背景的干扰,解决了传统方法在复杂场景下生成的类目标窗口置信度打分不高的难题。(2)针对复杂场景下图像分辨率高、目标小而稠密所带来的难题,本文通过刻画锚点和标注的目标窗口之间的匹配程度,构建期望均方损失函数,提出了自适应尺度的锚点生成方法。并且考虑了更加丰富的语义信息,利用基于注意力机制的特征融合策略,提出了适用于小而稠密目标的特征提取方法。同时引入目标数量信息的监督,提出了基于计数正则化的多任务损失函数,进一步提升复杂场景下稠密小目标的检测性能。(3)针对拥挤场景下目标部件严重遮挡所带来的挑战,本文研究了基于上下文信息的目标检测方法,提出了基于自适应关系的卷积神经网络模型。通过对目标个体稳定性进行建模,构建了局部结构化特征模块。通过描述多个目标的组间差异性,设计了全局自适应模块。该模型能够有效检测拥挤场景中人的头部区域,并可以推广到人脸检测任务。(4)针对跨域场景的目标检测任务,大多数现有的深度卷积网络往往会出现“灾难性遗忘”难题。为此,本文对具有可迁移记忆能力的目标检测方法进行了研究,提出了端对端训练的记忆神经网络模型,设计排序函数,挖掘记忆单元。无论是单类还是多类目标检测问题,本文提出的方法对学习到的目标信息都具有记忆能力。(5)针对跨场景的视频监控场景,本文对目标检测和认证任务展开研究。通过设计语义区域集成和多区域相似性度量策略,本文提出了多区域集成的跨场景目标检测与认证模型。该模型考虑了单个语义区域的外观信息和各个语义区域间的相互关系,能够克服水平条纹区域划分的缺点。在外表、视角、姿态、光照变化的情况下,仍然能够检测到标签一致的目标。