论文部分内容阅读
多目标跟踪问题是计算机视觉领域的一个重要问题,涉及模式识别与智能系统、传感器、图像处理、统计与机器学习等多个领域的相关技术。多目标跟踪的主要任务是对视频序列中的多个目标进行关联,并使其身份标识在序列中保持不变。经过几十年的深入研究和发展,多目标跟踪技术已在智能交通系统、智能监控系统、机器人导航、人机交互、生物医学研究等多个领域广泛应用。近十年来,随着RGB-D传感器技术的成熟,基于RGB-D数据的多目标跟踪技术取得显著进展。但是,在复杂的实际应用场景中,多目标目标跟踪仍然面临频繁的目标遮挡、剧烈的光照变化、动态背景的切换等问题与难题。有效解决这些问题与难题才能进一步提升相关应用系统的性能。本文针对复杂背景中基于RGB-D数据的多目标跟踪问题进行了深入研究,内容与成果包括: 1)针对多目标跟踪的实时性要求,提出了一种深度结构关联模型(DepthStructure Association,DSA)。模型将场景中的多目标划分到不同的深度链状结构中进行三维分析。利用整数规划中的多维数据分配问题对多目标之间的数据关联进行建模。在面对多目标跟踪过程中的遮挡问题时,链状结构利用深度值对目标匹配代价进行重新加权,使得目标在场景的不同位置更具有区分性。RGB-D数据集上的验证结果表明,DSA模型可以在交通场景的多目标跟踪问题上实现实时处理。 2)针对多目标跟踪的遮挡问题,提出了一种分层图模型(Layered GraphModel,LGM)。模型将多目标跟踪与图论中的图模型相结合,将传统的基于离散-连续的轨迹级(tracklet-level)目标关联方式,提升到层级(layer-level)。LGM利用深度数据构建目标在层内以及层间的图模型,利用目标之间的位置、运动和外形信息构造关联相似度。LGM利用自身的分层关系,在层内利用加入虚拟点的策略解决交通场景中多目标之间的复杂遮挡问题。 3)针对多目标成组运动问题,提出了一种拓扑能量最小化(Topology EnergyMinimization,TEM)模型。在多目标跟踪模型中引入行人的社会属性,利用行人组内组外的目标行人的运动相似度,进行能量形式的建模。目的是使组内的行人相似度尽可能的高,组间的行人相似度尽可能的低,并以“拓扑能量最小化”方式进行模型求解。在拓扑的变化过程中,TEM通过加入虚拟点,将被遮挡的目标通过组内位置估计进行有效定位,减少了跟踪过程中的目标丢失次数。模型还对行人目标的RGB-D特征进行了创新,提出了更适合多目标跟踪的RGB-D特征。 4)针对行人组动态变化问题,提出了一种基于动态拓扑图模型(GraphicalSocial Topology,GST)。GST模型将组内的行人看作是图中的节点元素,通过图中边的连接方式探索组内成员在行走过程中的运动的变化。模型通过离线与在线学习相结合的方式,对组的典型拓扑进行离线学习,并在在线跟踪中与行人组进行拓扑结构匹配。在组的运动过程中模型通过组的初始化、更新、合并和分裂的动态变化完成对行人组的跟踪。最后GST模型利用线性规划的方式完成组内行人的身份确认,得到目标的完整轨迹。将GST模型在RGB-D数据集和RGB数据集(MOT Benchmark)中进行测试,表明了其优越的性能。 本文还介绍了作者搭建的RGB-D数据采集平台以及在该平台上采集的多目标跟踪数据集。该数据集目前已公开,供多目标跟踪研究者使用。