论文部分内容阅读
随着大数据时代的到来,海量的视频数据存在于互联网中,如何对这些视频数据进行分析、识别和理解是计算机视觉领域新兴的研究热点。溯本求源,要做到对视频的语义进行理解,需要对视频中运动目标的姿态、行为等属性进行分析和理解。要达到这一目的,首先需要对视频序列中目标的运动趋势进行建模。这就回归到了计算机视觉中的一个基础性问题:视频目标跟踪。由于视频数据的复杂性、多样性以及运动目标本身变化的不确定性,视频目标跟踪目前依然是计算机视觉中的一个难点。其主要的挑战和困难包括:运动目标的表观具有多变性,包括目标本身的变化如平面内旋转、出平面旋转、尺度变化等;同时,外在环境的变化也常常导致运动目标的表观发生变化,如光照条件变化、目标物体被其他物体遮挡、复杂背景噪声和由采集设备的不稳定所带来的运动模糊等等。本论文从视频跟踪问题的基本建模方式入手,对视频跟踪基本模型进行分解,将鲁棒视频跟踪方法的设计问题归结为对两个核心难点问题的研究:1)如何有效建立稳健的运动目标表观模型,从而鲁棒的应对各种内在的或由外界环境带来的目标表观变化。2)如何鲁棒的度量目标表观模型和候选目标之间的相似程度,从而有效的在后续帧中定位目标物体。本文的工作紧紧围绕上述的两个难点问题,从以下三个方面展开研究:(1)从人眼视觉的本质规律出发,提出一种基于时空显著性结构化的目标表观模型建模方法。该方法采用对图像局部区域进行建模的方式,全面而深入的讨论了前景目标局部图像区域的显著特性。这种显著特性既包括了局部图像区域在空间维度上的显著性质,也包括了局部图像区域在时间维度上的显著性质,从而保证了具有较高显著性的局部图像区域能够提供充分的跟踪信息。进一步,该方法讨论了对目标的结构化建模问题,将局部图像区域的空间关系建模成为互斥约束,并加入到对局部图像区域的选择中,从而保证了目标表观模型中的冗余信息最小化。基于该表观模型,本文还给出了新的目标定位策略和模型在线更新策略,从而保证了该表观模型能够有效应对在视频序列中发生的目标表观变化。(2)提出一种基于低维特征子空间的目标表观模型建模方法,该方法将目标表观模型定义为一组随机的局部图像区域,这组局部图像区域是从一个过完备的特征空间中选择得到,是对原始高维特征空间的低维近似,能够有效捕捉到充分的跟踪信息。整体运动目标由该特征子空间构成的向量表达。在连续帧匹配过程中,通过特征子空间的匹配来定位目标物体。该方法的一个重要特点是简单快速,能很好的满足视频跟踪应用对实时性的要求。(3)提出一种适合于视频跟踪应用的基于传播融合的相似性度量方法,该方法能有效挖掘不同特征类型之间的互补特性,并将它们融合到一个统一的相似性度量之中;同时,该方法能有效利用后续帧中的候选目标之间的上下文结构关系,从而有效改善相似性度量的鲁棒性。该相似性度量方法的计算复杂度低,不依赖于特定的特征输入,任意类型的特征均可作为该相似性度量方法的输入。本文从运动目标表观模型和相似性度量两个角度出发,进行了深入而全面的研究,给出了一系列解决方法。理论分析以及实验结果表明,本文所提出的两种目标表观模型能鲁棒的建模视频中的运动目标,相似性度量方法能够有效的改善原始的相似性度量,从而提高跟踪算法的鲁棒性。