论文部分内容阅读
视觉跟踪是计算机视觉领域极具挑战的问题之一,其主要任务是在连续视频序列中持续的跟踪目标并记录目标运动轨迹,在视频监控、无人机跟踪、交通系统、人机交互、辅助医疗诊断和国防安全等领域有着广泛的应用空间。基于相关滤波器的跟踪算法是当前视觉跟踪领域中主流算法之一,此类跟踪算法具有高计算效率和优秀的性能体现,这得益于循环矩阵的种种特殊性质。循环矩阵的引入使得相关过程通过快速傅里叶变换转换到频域快速求解变为可能,并且通过增加隐式的循环样本,相关滤波器的整体分类能力进一步被提高。因此,本文基于相关滤波器及其相关跟踪算法进行跟踪算法的改进和研发。一个成功的视觉跟踪算法,需要同时满足高鲁棒性和实时性需求。然而,现实跟踪场景的多变性和复杂性导致了多数跟踪算法不能兼顾两者的困境。本文通过分析近年各类视觉跟踪算法发现,这种困境主要来源于单一传统特征的表征能力和目标漂移或丢失后无法重检测带来的低鲁棒性以及复杂算法框架导致的无法实时。针对上述问题,本文从表征特征和算法框架两个层面进行跟踪算法的优化和改进,在提高算法鲁棒性的同时,满足实时跟踪的需求。在目标的表征特征改进方面,本文基于经典视觉跟踪算法KCF(Kernelized Correlation Filter)进行改进,提出了一种模型互补的自适应跟踪算法CCMT(Tracker Combined with Complementary Models)。CCMT将传统特征模型分为两类:模板类特征模型和统计类特征模型,并应用一种自适应联合方案结合两类特征模型。所提出的联合方案结合两类模板的各自优势所在,在诸如目标形变、目标遮挡、光照变化或背景混杂等复杂场景下可以自适应调节两类模型对目标的整体表示能力,进而达到对于目标更准确表示的目的。同时,一种简单高效的模型更新策略被提出,通过先验阈值控制模型更新过程,避免极端复杂场景下目标模型的污染,进一步提升了算法的整体性能。实验结果表明,CCMT在鲁棒性和跟踪精度上远超基础算法KCF和其他经典跟踪算法,并且跟踪速度远超实时跟踪需求。在算法框架改进方面,本文基于标准相关滤波器技术,提出了一种多级相关的跟踪算法MLCFT(Multi-level Correlation Filter-based Tracker)。不同于CCMT使用传统特征进行目标表征,MLCFT使用提取于卷积神经网络的深度特征,可以更好地表征目标。MLCFT同时利用来自于卷积神经网络浅层和深层的特征,兼顾空间信息和高层语义判别信息,并使用一种基于相对熵的技术对多层深度特征进行融合。同时,MLCFT提出了一种双级级联的检测策略,将目标检测过程分为初级检测和重检测两个步骤。通过阈值抑制、区域限制和非极大值抑制机制一系列操作进行目标位置候选点的定向,重检测过程变得更加高效和准确。此外,一种自适应在线模型更新策略被提出,利用历史帧检测结果衡量当前帧预测结果的可信度,从而达到自适应调节模型更新过程的目的。本文通过多个实验论证了MLCFT架构中每个模块的贡献度、可行性和正确性,MLCFT可以有效处理诸如快速运动、运动模糊、遮挡、背景混杂或低分辨率等复杂场景下导致的目标漂移或丢失问题。并且,定量和定性的实验结果表明,MLCFT无论鲁棒性还是跟踪精度都超过其他多数主流跟踪算法,同时满足实时跟踪需求。