论文部分内容阅读
面对海量的视频数据,人们致力于利用各种技术来自动分析和理解其中包含的视觉目标的行为,并应用于与我们息息相关的日常生活中。这些应用的成功,离不开视觉目标的检测和跟踪。它们是计算机视觉领域两个非常重要的基础任务,一直以来都属于热点研究内容。本文针对视觉目标检测和跟踪中的一些关键性技术展开研究。具体的,本论文主要进行了以下几个方面的研究: 第一,本文研究了类别目标的检测,提出一种基于缩略图、采用深层神经网络的类别目标检测方法。现有的类别目标检测方法都利用了目标在精细尺度上的局部特征,而经验表明,人眼视觉基于目标的缩略图就可以识别目标,这个过程并不依赖于精细尺度上的局部特征,而是利用了粗略尺度(缩略图)上整体的高阶相关特性。本文采用深层神经网络从类别目标的缩略图中学习其高阶相关特性,并应用到类别目标检测中。该方法使用受限玻尔兹曼机自动的从类别目标的缩略图中学习多个层级的特征,使得类别目标的检测不依赖于人为精心设计的特征。实验结果表明,该方法在检测准确率方面达到了目前最先进技术的水平。而在效率方面,该方法不需要显式的特征提取,速度快,适合于实时检测和用硬件实现。 第二,本文研究了如何利用颜色信息来改进视觉目标的光流跟踪,提出了一种基于四元数的光流跟踪方法。在经典的光流跟踪中,光流估计算法和特征点提取都只考虑了亮度信息,而现今彩色视频已成主流,颜色信息有助于提高光流跟踪的准确性和鲁棒性。为了利用颜色信息,本文在光流估计算法方面,将颜色的四元数表示引入光流等式中,以整体信号的形式处理颜色,提出了四元数光流估计算法。在特征点提取方面,设计了一种衡量颜色变化程度的度量,提出了四元数颜色角点提取算法,以捕捉颜色的显著性。在光流跟踪中结合了颜色角点和亮度角点,并使用了四元数光流估计算法。实验表明,四元数光流估计算法提高了估计准确率,特别是在颜色变化较强烈的区域;四元数颜色角点对亮度变化不敏感,只捕捉颜色变化的显著性;基于四元数的视觉目标光流跟踪方法比其他方法更鲁棒。 第三,本文研究了复杂场景下视觉目标的事件检测,提出了一种有效且高效的检测框架。在基于视频的应用中,人们关注的一般不会是场景中的所有目标,而是发生了某种感兴趣事件的目标。事件检测,是对视觉目标在语义层次上的检测,因此也是本文的研究内容之一。复杂场景下,目标众多,背景杂乱,光照不均,运动伴随阴影,目标尺寸变化幅度大,这些特点给事件检测带来了很大的挑战。本文的框架综合了多种技术以完成事件检测的任务。特别的,在运动前景提取中消除了阴影的影响,在跟踪中考虑了目标尺寸的大幅度变化。在效率方面,结合两种目标检测技术并使用跟踪结果辅助目标检测,提高了检测效率。使用HMM模型对事件进行建模和检测。实验结果表明,该框架是鲁棒的,检测结果优于其他方法。另外,针对一些单个目标参与的事件,本文提出了一种新颖的基于光流轨迹片段的事件检测方法。