论文部分内容阅读
通用视觉目标跟踪是计算机视觉中的一个非常重要而且活跃的研究领域,并在视频监控,人机交互和自动驾驶等场景中有着广泛的应用。一直以来,国内外的研究人员针对目标跟踪问题提出了大量的解决方法,其中基于相关滤波的方法以高效的运行效率著称,并在近年来受到越来越多的关注。当前绝大部分的研究工作通过改进相关滤波算法获得了准确率性能的提升,但是却极大地降低了算法运行效率。本文深入剖析并揭示了相关滤波跟踪算法存在的不足,并提出结合卷积神经网络来有效解决这些问题,最终实现又好又快的目标跟踪算法。本文实现了两种结合卷积神经网络的相关滤波跟踪算法,主要工作包括:第一,结合孪生网络的相关滤波跟踪算法。首先,在相关滤波算法中,滤波器需要进行在线更新来适应视频中目标外观的动态变化。目前绝大多数算法直接将每一帧的跟踪结果用于滤波器更新,因此当目标受到严重遮挡的时候,更新后的滤波器会对背景过拟合。针对这个问题,本文通过使用孪生网络对跟踪结果进行评价,实现了一个鲁棒的滤波器自适应更新策略。然后,经典的相关滤波算法虽然有着高效的运行效率,但是却因受到边缘效应的影响,只能在有限的搜索区域内进行目标的检测。另外由于手工特征的使用,这些算法在遇到目标快速运动和相似背景干扰的时候,常常会出现跟踪失败。针对这些不足,本文提出了一个多峰检测策略。这个策略通过自适应地产生候选目标并用孪生网络进行验证,可以有效减少由于搜索区域小和特征表达能力弱而导致的跟踪失败问题。最后,本文提出在目标跟踪过程中在线构建一个模板库。相比于只用一个固定的模板,多样化的模板库可以使得孪生网络拥有更加准确的分辨能力。第二,背景感知的相关滤波网络。相关滤波跟踪框架主要包含特征表达和滤波器学习两部分。而在特征表达方面,手工特征或者其他任务中训练好的卷积特征被绝大多数的相关滤波算法所使用。本文考虑将特征表达和滤波器进行联合学习,目的是为滤波器学习到具有针对性的特征表达。具体来说,我们构建一个卷积神经网络,并将滤波器解释成网络中的一个具有可微分性质的层,称为相关滤波层,然后就可以通过反向传播对网络进行端到端训练,学习到针对滤波器的卷积特征表达。相比于使用经典的滤波器作为相关滤波层,本文提出使用更高级的滤波器,最后得到一个背景感知的相关滤波网络用于实现目标跟踪。在权威数据集OTB-13和OTB-15上的大量对比实验结果表明,本文提出的两种结合卷积神经网络的相关滤波跟踪算法均实现了优越的跟踪准确率性能,并保持了远超实时的跟踪速度。在OTB-15上,结合孪生网络的相关滤波跟踪算法取得了61.3%的AUC分数,相比于基准跟踪算法获得了12.3%的相对提升;背景感知的相关滤波网络取得了62.6%的AUC分数,相比于基准跟踪算法获得了11.0%的相对提升。