论文部分内容阅读
视觉多目标跟踪是应用计算机视觉技术对视频场景中的多目标实现自动检测与跟踪的技术,已被广泛应用于自动驾驶、智能视频监控、自动化监控、交通监视等领域。随着人工智能技术的发展,基于深度学习的计算机视觉技术得到了突破性的发展,尤其推动了自动驾驶视觉感知技术跨越式发展。多目标跟踪是自动驾驶视觉感知中的关键技术。通过多目标跟踪技术,能够实现目标的位置、速度、移动方向的判断,为自动驾驶车辆的自动避障提供支持,给自动驾驶的安全性提供保障。
自动驾驶场景的高速运动往往会导致目标与背景的形态变化较大,位置变化较快,要实现满足自动驾驶场景的实时目标检测与跟踪是极具挑战的。目前大多数的多目标跟踪算法因较高的计算复杂性而无法满足自动驾驶场景实时性的要求。因此,为实现自动驾驶场景的实时目标检测与跟踪,本文设计了一个轻量级端到端目标检测与跟踪深度神经网络框架,该框架通过设计适合高效的目标检测算法和目标关联网络,实现自动驾驶场景下精准而高效的多目标跟踪方法。
不同于传统多目标跟踪算法使用多个网络模型进行目标检测再进行目标表观特征提取的方式,本文设计的端到端网络中的轻量级骨干网络能够同时对多个目标进行检测以及表观特征的提取,降低了多个网络模型预测过程产生的网络计算量,且避免了重复输入目标到特征提取网络进行表观特征提取的冗余过程,有效地提高了表观特征提取的效率。在特征提取阶段,本文使用了面向多目标跟踪的基于中心点的目标检测和特征提取方法,在得到更加精准的目标中心点检测结果基础上以提取目标更加鲁棒的表观特征。在匹配跟踪阶段,考虑到自动驾驶场景下同一目标位移不会过大且与相邻目标的空间关系存在规律变化,本文在使用目标关联网络进行目标特征匹配的过程中,除了考虑目标间的表观特征外,还考虑了目标的位移信息和空间关系。通过构造目标图结构,分别使用目标的表观特征与目标间的空间关系来进行匹配,有效地防止了两个不同目标因外观相似造成的错误匹配。得到前后帧的目标间匹配矩阵结果后,本文设计了适用于本网络输出结果的多目标跟踪策略来匹配已存在轨迹和当前检测到的目标,以提高多目标跟踪目标匹配阶段的鲁棒性。
通过在多目标跟踪比赛数据集MOT17上比较,本文提出的多目标跟踪算法从速度与精度上超过了传统目标检测和跟踪及目前优秀的深度学习方法,取得了平衡速度和精度的最优结果,达到了满足自动驾驶场景高效目标检测与跟踪的目的。本文方法为多目标跟踪的未来研究提供了新的思路。
自动驾驶场景的高速运动往往会导致目标与背景的形态变化较大,位置变化较快,要实现满足自动驾驶场景的实时目标检测与跟踪是极具挑战的。目前大多数的多目标跟踪算法因较高的计算复杂性而无法满足自动驾驶场景实时性的要求。因此,为实现自动驾驶场景的实时目标检测与跟踪,本文设计了一个轻量级端到端目标检测与跟踪深度神经网络框架,该框架通过设计适合高效的目标检测算法和目标关联网络,实现自动驾驶场景下精准而高效的多目标跟踪方法。
不同于传统多目标跟踪算法使用多个网络模型进行目标检测再进行目标表观特征提取的方式,本文设计的端到端网络中的轻量级骨干网络能够同时对多个目标进行检测以及表观特征的提取,降低了多个网络模型预测过程产生的网络计算量,且避免了重复输入目标到特征提取网络进行表观特征提取的冗余过程,有效地提高了表观特征提取的效率。在特征提取阶段,本文使用了面向多目标跟踪的基于中心点的目标检测和特征提取方法,在得到更加精准的目标中心点检测结果基础上以提取目标更加鲁棒的表观特征。在匹配跟踪阶段,考虑到自动驾驶场景下同一目标位移不会过大且与相邻目标的空间关系存在规律变化,本文在使用目标关联网络进行目标特征匹配的过程中,除了考虑目标间的表观特征外,还考虑了目标的位移信息和空间关系。通过构造目标图结构,分别使用目标的表观特征与目标间的空间关系来进行匹配,有效地防止了两个不同目标因外观相似造成的错误匹配。得到前后帧的目标间匹配矩阵结果后,本文设计了适用于本网络输出结果的多目标跟踪策略来匹配已存在轨迹和当前检测到的目标,以提高多目标跟踪目标匹配阶段的鲁棒性。
通过在多目标跟踪比赛数据集MOT17上比较,本文提出的多目标跟踪算法从速度与精度上超过了传统目标检测和跟踪及目前优秀的深度学习方法,取得了平衡速度和精度的最优结果,达到了满足自动驾驶场景高效目标检测与跟踪的目的。本文方法为多目标跟踪的未来研究提供了新的思路。