论文部分内容阅读
由于计算机视觉技术的发展,视频目标跟踪技术在众多相关应用领域受到了广泛关注,例如智能视频监控、人机界面、智能机器人、运动分析等。其中,视觉表观模型的构建是视频目标跟踪问题的重中之重。然而,运动目标自身的旋转、扭曲、尺度等复杂变化,加上背景的拥簇、光线变化、外物遮挡、三维空间投影到二维平面所造成的信息缺失,以及实时处理的需求等情况的发生,都给高效表观模型的构建带来了极大挑战。 本文主要围绕视频单目标跟踪中视觉表观模型的构建问题展开,对特征融合与联合决策对视频跟踪的影响进行了深入研究,并针对表观模型构建的难点问题,提出了一些有效的新算法,对今后的研究学习产生了重要的理论意义和实用价值。 本文主要研究成果如下: 1.提出了一种基于时空卡尔曼融合(Time-Space Kalman Fusion,TSKF)模型的融合压缩跟踪方法。压缩跟踪(Compressive Tracking,CT)是一种既简单又有效的跟踪方法,它在保留大部分显著信息的同时,能够将高维特征压缩到低维空间。新方法正是利用压缩跟踪的这个优势,将其扩展到可见光与红外传感器特征融合跟踪的问题上。此外,传统的融合跟踪算法对多传感器特征进行单独处理,没有考虑它们在时间、空间上的自适应性,在更新过程中所积累的重要信息也没有被充分挖掘出来。与传统算法不同的是,新方法的融合模型同时在时间域和空间域完成,并利用扩展卡尔曼滤波器实现所提融合模型中融合系数的有效更新。实验结果表明新方法具有较好的跟踪精度,并在对抗噪声方面具有较强的鲁棒性。 2.提出了一种基于多视角多核融合(Multi-View Multi-Kernel Fusion,MVMKF)模型的可见光与红外传感器融合跟踪方法。对视频目标跟踪问题来说,可见光与红外传感器具有互补的有用信息,且对目标与背景的分离具有一致性的判别信息。多视角学习方法能够将多个包含一致性和互补性特点的视角特征统一结合,因此近年来得到了研究学者的广泛关注。论文所提的多视角多核模型同时将可见光与红外传感器视角的特征信息考虑进来,使用多核框架对视角特征的重要性进行学习,然后根据各自的表现进行加权融合。此外,由于分类器级和复杂特征级多视角学习的优越表现,论文的跟踪过程由复杂压缩特征域下的贝叶斯分类器实现。实验数据表明,新方法在准确率、鲁棒性及速度方面都具有较好表现。 3.提出了一种基于结构化稀疏表示的视觉核函数联合跟踪与识别(Kernel Joint Tracking and Recognition,KJTR)方法。视频目标的跟踪与识别两者紧密相连、相互依存,两者的结合能够取长补短、相得益彰。为了同步处理视频目标的跟踪与识别,论文采用了最优联合决策与估计(Joint Decision and Estimation,JDE)模型促使决策(识别)与估计(跟踪)有潜力达到全局最优,并利用迭代学习过程实现跟踪与识别结果。此外,文中表观模型依靠能够同时表征全局和局部信息的结构化稀疏表示(Structured Sparse Representation,SSR)模型建立。同时,我们在学习过程中加入核函数描述候选目标的重要性和贡献率,在模型中加入新的自适应联合权值以适应更大的表观变化。实验数据显示,新方法能够在准确跟踪视频目标的基础上,正确地识别目标物体所属类别。