论文部分内容阅读
视频多目标跟踪的主要任务是定位视频帧中所有感兴趣的目标,在不同帧间维持目标的身份并生成目标的运动轨迹。视频多目标跟踪是计算机视觉中的一个重要问题,在诸如智能武器装备、视频监控、自动驾驶、人机交互等领域具有重要的应用价值。近年来,以卷积神经网络、递归神经网络为代表的深度学习技术在计算机视觉领域取得极大成功,基于深度学习的目标检测技术也获得了巨大突破,基于检测的跟踪(tracking-by-detection)范式成为多目标跟踪方法的主流。复杂的视觉场景中目标数量众多且动态变化、目标之间相互遮挡、目标的外观相似、检测器出现检测错误等问题,给多目标跟踪带来极大挑战。本文针对基于检测的跟踪范式,研究如何构建鲁棒的亲和力度量,提高多目标跟踪算法的准确率。为了使算法在有实时性要求的场景中取得较好的跟踪性能,本文分别研究了半在线处理方式和在线处理方式。为进一步提高目标表示的精确性,本文还研究了多目标跟踪和分割问题。具体来说,为了增强在线算法中传统的相似度度量的鲁棒性,提出基于序列–到–序列相似度度量的半在线多目标跟踪算法,并进一步基于目标在一段时间内的外观一致性,提出结合多种一致性外观线索的半在线多目标跟踪算法;为了利用检测–检测对构成的潜在关联之间的交互关系,如相容关系、互斥关系,提出基于检测对的端到端图卷积神经网络用于在线多目标跟踪;为解决现有多目标跟踪算法使用边界框(bounding box)表示目标过于粗糙的问题,提出一种多目标跟踪与分割的在线方法。本文的创新点主要包括:1.基于序列–到–序列相似度度量的半在线多目标跟踪模型。提出的序列–到–序列相似度度量学习已跟踪目标轨迹序列与假设检测序列之间的相似度,其中已跟踪目标轨迹序列由已经被关联的检测响应构成,假设检测序列由邻近未来帧中的检测响应构成。基于这样的思想:如果一个已跟踪目标轨迹序列和一个假设检测序列具有较高的相似度,并且该假设检测序列和当前帧中某个检测响应具有较高的相似度,则该已跟踪目标轨迹序列和该检测响应的相似度也较高。通过将一小段假设检测序列作为“桥”,本文提出的序列–到–序列相似度度量增强了传统的已跟踪目标轨迹与当前检测响应之间的相似度度量,提升了其对于目标遮挡与丢失的鲁棒性。2.结合多种一致性外观线索的半在线多目标跟踪模型。为了区分来自不同目标的检测,同时将来自同一目标的检测聚在一起,基于目标在一段时间内的一致性外观,本文利用分别来自现在、过去和未来的三种类型的证据进行相似度估计。检测–到–检测相似度度量聚焦于现在的外观信息,序列–到–检测相似度度量聚焦于过去的外观信息,序列–到–序列相似度度量聚焦于未来的外观信息。三种度量通过学习到的自适应结合权重融合起来,得到一个综合性的度量。3.基于将检测对做为顶点的端到端图卷积神经网络的在线多目标跟踪模型。图神经网络已被证明可以为建模检测之间的交互提供一种自然的方式。受此启发,本文提出了一种基于深度图卷积关联网络的新颖的数据关联方法,将检测级交互扩展到关联级。通过将由检测对构成的潜在关联视为图的顶点,显式地建模潜在关联之间的交互。潜在关联之间的兼容交互和互斥交互信息通过相应的边进行建模。通过重新定义图的顶点和边,本文提出的模型能够从外观特征和运动特征融合足够的交互信息,并以端到端的方式学习一个强有力的相似度度量。4.无需边界框的联合跟踪与分割的在线多目标跟踪与分割模型。通过添加一个实例分割分支,本文扩展当前最先进的联合检测与跟踪模型FairMOT,提出一个在线的多目标跟踪与分割方法FairMOTS。FairMOTS以视频的原始图像帧为输入,通过一个卷积神经网络同时解决实例分割和多目标跟踪问题,并直接生成目标掩膜轨迹。FairMOTS包含三个同质分支,分别预测像素级目标度得分,目标掩膜,以及重识别特征。不同于先前依赖于目标的边界框进行实例分割的联合多目标跟踪与分割方法,FairMOTS不依赖于目标的边界框,可以直接估计目标的掩膜。