论文部分内容阅读
近年来目标跟踪算法研究已经取得了长足发展,因而也被广泛应用到了现实场景中去,所涉及的视觉系统小到手机、无人机,大到无人汽车、监控系统等等,涉及了不同的跟踪目标和应用场景。跟踪算法从理论研究到现实应用的嫁接过程也遇到了各种问题,初始化信息的获取就是其中之一。在理论研究中,跟踪算法初始化时所用的目标信息来自于所用视频集中的人工标注。但实际视觉系统所在的真实场景中没有现成的人工标注,初始化信息需要通过目标检测或者人工交互的方式来给定。基于目标检测给出初始目标的方案具有局限性。其中基于模型的针对特定目标或特定类别物体的检测算法需要已知目标模型或者已有足够多的样本来训练模型;而基于背景差分、目标轮廓特征、图像显著性等技术的通用目标检测算法往往对目标的运动状态、场景的混杂程度有着特殊的要求。因此在目标种类多样、场景复杂多变、跟踪需求不一的现实视觉跟踪系统中,手工提取目标仍然是不可缺少的方案之一。但是一直以来都鲜有视觉跟踪系统中基于人工交互来提取初始目标的相关研究,人机交互既缺乏数据基础和理论分析,也没有针对其中问题的系统性解决方法。为了填补这一空白,本文收集并建立了实际场景下的人机交互数据集,提出了全新的基于人机交互的初始目标提取方法,同时为了实现这这些方法在多个研究方向上进行了算法创新。本文收集并建立了首个公开的人机交互输入数据集。由于视觉系统的应用范围极广、输入规则不同、交互环境有异,本文征集了多名测试用户,设计了三种不同的交互规则,收集了两种不同的交互操作信息,同时用于收集交互数据所用的视频均拍摄于实际视觉系统,包含室内室外、白天夜晚、行人车辆等不同的场景和目标。目前为止数据库规模超过了20000多个有效的人机交互输入。基于该数据库,本文进一步对人机交互输入进行了建模,分析并讨论了影响交互输入精度的主要原因,并按照视频特点和交互难度对视频数据集进行了分类,为后续算法的提出和测试提供了数据基础。从本文建立的人机交互输入数据集中可以清晰的看到,人机交互操作在众多场景下的低精度输入和跟踪算法初始化时的高精度需求之间存在着矛盾。针对这一问题,本文提出了三种操作复杂度和输出精度不同的人机交互初始化方法。本文提出了一种通过人工输入的单次点击自动恢复出目标区域的人机交互方法,其核心为本文提出的一种融合类目标采样(Object Proposal)和显著性特征(Saliency)等底层图像信息的通用目标检测算法。其中类目标采样算法的任务是从图像中检测所有可能包含物体的图像窗口,基于底层图像特征的特性使得其采样输出会在完整的物体轮廓周围聚集,本文利用这一特点实现了不依赖先验目标模型的通用目标检测。算法的输入为一个针对待跟踪物体的人工点击,通过融合类目标采样窗口、图像显著性信息、以及前文数据集中得到的人工交互输入分布模型,在减小交互输入误差的同时自动恢复出待选目标区域。本文算法使得目标提取过程仅需一次人工点击就可完成,操作复杂度低,适用于需求快速响应的系统环境,同时由于不依赖先验目标模型,该算法可用于任意目标的检测。实验表明本文算法灵活有效,可以大幅度的提高人工交互输入的精度,实现了基于单次点击输入的目标区域提取方法。本文提出了一种基于视频稳定的通过人工拖选提取目标区域的人机交互方法,其核心为基于目标运动轨迹的视频稳定算法。传统视频稳定方法需要估计摄像机的运动模型以进行图像变换,稳定后的视频中场景和目标均实现平滑的运动。但是对于人机交互来说,在视频抖动之外目标本身的运动同样会造成输入精度的降低。因此本文通过估计待选目标的运动轨迹来作为视频稳定的依据,与传统的视频稳定技术只消除摄像机抖动相比,本文算法同时消除了相机抖动以及待选目标在交互界面上的相对运动,使得待选物体相对于交互界面保持静止,极大的方便了更为复杂的交互输入。实验表明本文方法可以有效的消除视频抖动和目标运动,基于该算法人机交互操作得以给出精确的目标区域,使得复杂场景下精确信息的提取成为了可能。本文提出了一种基于在线视频分割的精确目标区域选取方法,其核心为本文提出的一种视频超像素分割算法,与传统方法相比本文算法提出了“支持超像素组”的概念来处理遮挡。视频超像素与图像超像素间的不同在于超像素区域会在视频序列中传播。基于视频超像素分割可以得到任意超像素在其他帧中的对应位置,因此人机交互时可以通过点选目标包含的超像素来得到其他帧中对应的精确区域。传统视频超像素方法因为没有考虑遮挡前后的超像素配准从而会导致轨迹中断,“支持超像素组”利用超像素间的轨迹相似性、基于隐形状模型和广义霍夫投票的方法来估计被遮挡的超像素位置。实验证明本文提出的视频超像素算法可以有效的对抗遮挡,延长超像素轨迹长度,基于此算法的人机交互方法可以得到更加灵活、更加精确的目标信息。