论文部分内容阅读
给定视频数据中某一未知类别物体的外观特征,在线视觉跟踪问题旨在对其进行准确的定位和跟踪。视觉跟踪是计算机视觉领域中的一项基础而关键的技术。在智能安防、交通监控、无人驾驶、人机交互及现代化军事等诸多实际问题中都有着广泛而重要的应用。近年来,视觉跟踪相关的学术研究一直是计算机视觉领域的热门课题之一。随着特征工程、机器学习算法以及计算机算力的不断发展,有关视觉跟踪的研究也取得了重大的进展。无论在跟踪的高效性方面还是跟踪的准确性方面,当前的研究成果都有显著的提升,但仍然存在许多颇具挑战性的问题没有获得理想的解决。这些问题包括如何有效应对多重因素引起的目标形变,如何对算法模型进行有效的离线学习和在线更新,如何充分利用视频数据在时域上的连续性等。针对以上种种难题,本文立足于视觉跟踪中目标外观模型的构建,对不同层级的表征方式在视觉跟踪中的应用展开研究。本文主要的贡献和创新点如下:(1)面向低层特征,本文提出了一种基于结构化信息约束的区域融合算法。在训练阶段,该算法通过构建融合原型矩阵对前景超像素和相邻超像素之间的空间结构关系进行建模。测试阶段分两步进行:首先,以融合原型矩阵中集成的空间结构化信息作为约束,从四个不同的方向对相邻的超像素对进行融合;其次,从融合的超像素对中提取前景超像素,最终实现前景和背景区域的准确分离。本文进一步将该算法应用于视觉跟踪问题中,将视觉跟踪问题转化为超像素的二分类问题,通过对前景区域的分割达到对前景目标定位的目的。实验结果表明,本文提出的基于结构化信息约束的区域融合算法,可以有效描述相邻超像素所反映出的结构化信息。与单纯依据超像素外观特征进行区域融合相比,本文算法通过利用结构化信息作为约束,可以显著地提升区域融合的精确度,进而实现更高精度的视觉跟踪。(2)为增强低层特征的时空连续性,本文提出了一种基于时空平滑性约束的超像素跟踪算法。在该算法中,空间平滑性约束采用流形学习的思想,对目标局部外观的几何关联进行建模,从而更加有效地利用了大量无标签超像素所反映出的流形结构;时间平滑性约束采用光流法实现,通过寻找相邻两帧超像素的对应关系捕捉目标外观短期的变化;外观一致性约束运用在线的随机森林分类器对目标外观的长期变化进行建模,为跟踪提供外观先验知识。上述三种约束条件被统一在相同的优化框架之下。该算法通过同时对三种约束条件进行优化,遵循目标外观在时间和空间上的一致性以及外观变化在短期和长期的互补性,最终实现目标区域的准确检测。实验结果表明,上述三种约束条件可以有效提升跟踪算法的精确度。尽管在没有前景分割真实值的情况下进行模型初始化,该算法依然可以预测出比矩形框表示方式更为合理的目标区域分割结果。(3)为探索高层特征在目标外观建模中的作用,本文从视觉跟踪的角度首次对深度特征进行了特征分析,并针对视觉跟踪的特点给出了深度特征的若干重要属性,其中包括:不同层级的卷积特征从不同的方面对目标外观进行刻画;在图像分类任务上预训练的深度网络中只有部分神经元与当前的跟踪任务相关。根据这些观察,本文提出了基于全卷积网络的视觉跟踪算法。该算法将中低层和高层深度特征相结合,同时用于目标的定位,并设计背景干扰项检测机制对基于不同层级特征的定位结果进行筛选和切换。此外,本文进一步提出基于目标外观特性的自适应特征筛选算法,对无关或噪声特征进行剔除,从而提升跟踪算法的鲁棒性,并为算法加速提供了有力的支持。实验结果表明,与传统算法相比,基于全卷积网络的跟踪算法具有更高的跟踪准确率和可靠性。(4)为提升高层特征对目标外观的适应性,本文提出了一种序列化卷积神经网络在线训练算法。该算法将卷积网络视作一个集成模型(Ensemble),其中的每一个特征通道充当一个基学习器(Base Learner)。不同的基学习器采用不同的准则进行训练,并通过对它们进行序列化采样,获得最佳的集成模型。与此同时,本文提出带有随机二值化掩模的卷积操作,以促使不同的卷积特征关注目标的不同部分。本文将上述算法应用于视觉跟踪中的目标定位网络,并提出基于深度特征的尺度估计网络,对目标框的大小进行预测。实验表明,该网络训练算法适合在线视觉跟踪中训练样本以序列化方式获取的特性,可以显著降低网络过拟合的风险,去除特征间的冗余性,从而更加有效地将预训练的深度特征迁移至在线跟踪任务中。