论文部分内容阅读
多目标跟踪旨在从视频中估计场景内多个感兴趣目标的运动轨迹,为进一步分析和理解视频内容提供基础,是计算机视觉与模式识别领域的研究热点,在智能视频监控、视觉导航、智能交通、体育训练等诸多领域具有广泛的应用前景。尽管多目标跟踪的研究已经取得了许多进展,由于存在目标数量庞大、表观相似、背景干扰、频繁遮挡等因素的影响,复杂场景中的多目标跟踪仍是一个挑战性的难题。本文采用基于检测的跟踪框架(tracking-by-detection),主要从目标检测和数据关联的角度出发,研究如何对复杂场景中的多个目标实现鲁棒的在线跟踪。本文提出了用于在线多人跟踪的时间动态表观建模方法,利用人体表观的时间动态特性在跟踪过程中识别不同行人,为数据关联提供精确的依据。在基于隐马尔科夫模型的产生式框架下,使用多个观测模型表示人体表观在特征空间中的空间分布特性,并将人体表观随时间的动态变化规律建模为多个观测模型之间的转移概率。基于在线期望最大化算法,采用增量更新的方式在跟踪过程中学习模型参数。为了获得有利于建模时间动态的特征表示,提出了一种特征选择方法将高维冗余的底层特征映射为低维的中层语义特征,使得人体表观的时间动态特性能够很好地被相应的语义特征所刻画。本文将时间动态表观建模方法与通用的多目标跟踪框架相结合,实现了鲁棒的在线多人跟踪。在公开测试平台MOTChallenge 2015上的实验表明,该方法能够有效地缓解目标表观相似引起的轨迹混淆问题。本文研究了同时优化目标检测与目标轨迹的多目标跟踪框架,提出了基于序贯轨迹先验的在线多目标跟踪,有效地缓解多目标跟踪性能受限于目标检测器性能的现状。在基于贝叶斯估计的概率框架下,将目标检测与数据关联表示为两个相互促进的最大后验估计问题。从已有目标轨迹包含的历史信息中提取了序贯轨迹先验,对目标检测和数据关联的最大后验估计进行指导。建立序贯轨迹先验与目标检测之间的联系,使得目标检测能够提供有助于目标轨迹估计的最优检测结果;建立序贯轨迹先验与数据关联之间的联系,增强了所生成的目标轨迹对噪声的鲁棒性。本文通过求解目标检测与数据关联的最大后验估计,顺序地生成多个目标的精确运动轨迹,在目标检测器存在噪声、丢失目标的情况下也能取得令人满意的结果。实验表明,基于序贯轨迹先验的方法能够在校园、街道、停车场等无约束的复杂场景中鲁棒地跟踪多个目标。本文提出了混合局部和全局数据关联的在线多目标跟踪方法,将在线多目标跟踪从局部的单帧数据关联向全局的多帧数据关联扩展,同时结合局部数据关联和全局数据关联的优势,提升在线多目标跟踪在复杂场景中的性能。采用最小代价多商品网络流(min-cost multi-commodity flow)模型为已有目标轨迹在多个视频帧中寻找最优数据关联,将多个视频帧中的目标检测结果建模为网络中的节点,并将目标检测结果之间可能存在的关联建模为网络中的有向边。每个已有目标轨迹对应在网络中流通的一种特定商品,不同的商品流过网络中的节点和边需要付出不同的代价,通过以最小代价向网络中发送特定类别的商品流实现多个目标的跟踪。为了自动发掘场景中新出现的目标,本文在网络中额外添加了一种与已有目标轨迹无关的虚拟商品。提出了一种新的优化求解方法,能够高效地获得模型的近似最优解并提供近似最优解的次优性验证。在PETS、ETHMS等公开数据集上的实验表明,混合局部和全局数据关联的在线多目标跟踪方法能够有效地处理遮挡、运动突变等难题,提供鲁棒的跟踪结果。