论文部分内容阅读
视觉目标追踪是计算机视觉领域被广泛关注并被深入研究的一个问题,研究成果广泛应用在无人驾驶、视频检索、视频监控等领域。视觉目标追踪任务的目标是:在视频序列的第一帧中用矩形框标定一个感兴趣的物体,本文希望能够在后续帧中,利用设计的算法,自动发现第一帧中标定的物体,这样就可以在视频序列中得到物体的轨迹,从而完成追踪任务。一个典型的视觉目标追踪系统由三部分组成。(1)外观模型,这个模型可以基于局部图像的外观,预测感兴趣的目标在某些特殊区域的概率。(2)位置模型,这个模型用于估计目标目前在一个特殊位置的先验概率。(3)搜索策略,用于发现当前视频帧中目标位置的最大后验概率。根据视觉目标追踪系统中采用具体算法的不同,目前阶段的视觉目标追踪算法可以分为两类,一类是鉴别式模型,另外一类是生成式模型。最近,一类叫做人工精确滤波器的技术被用于构建外观模型,并且展示出了优异的实验效果以及令人印象深刻的运行效率。人工精确滤波器由大量训练图片以及与之相关的期望输出训练得到。然而,目前还没有理论解释这种方法在物体检测或者视觉目标追踪任务中取得成功的原因。本文利用匹配滤波器理论解释了人工精确滤波器具备优异性能的原因并且基于该理论提出了卷积滤波器方法,并利用该方法构建了一个全新的视觉目标追踪系统。与之前利用图片以及期望输出训练的人工精确滤波器不同,卷积滤波器仅仅利用图片训练,无需期望输出。基于卷积滤波器的追踪系统的优点包括:运行效率更高并且更加鲁棒,对参数不敏感,对图片的预处理更加简单。此外,本文利用空间上下文信息进一步提升追踪系统的性能。在许多有挑战性的视频序列中的实验表明,基于卷积滤波器构建的追踪系统在追踪精确度方面有非常优异的表现,在追踪效率方面超过了绝大多数追踪系统。