论文部分内容阅读
复杂场景下的目标检测是一个极具挑战性的任务。一方面,光照在强度、角度、距离上的变化与观察者在观察位置、角度、距离上的变化带来背景与目标的各种复杂变化,比如亮度、对比度、阴影、位置、尺度、视角、姿态等变化;另一方面,3D到2D的成像过程中引入的噪声、造成的信息缺失使得问题更加复杂化甚至变得无法求解。本文围绕复杂场景下的目标检测这一任务开展了系统性的研究工作,涉及到的内容包括:视觉研究的方法论基础,单帧上的2D目标检测(包括视觉词袋模型、Pictorial模型),连续帧上的2D目标检测(朴素贝叶斯模型)。本文的研究工作既注重理论与方法的思考,也注重算法设计与实现的研究。具体的内容简述如下:1.本文在Marr的视觉表示理论的基础上,结合统计学习理论,总结出了视觉模型方法,即视觉约束的统计学习方法。该方法具有两个重要特点:既注重计算的研究又注重物理约束的研究;强调视觉计算从本质上讲是一个概率推断过程。该方法将解决一个具体的视觉问题归纳为五个步骤,其中,前两个步骤对应计算理论层次,后三个步骤对应算法设计层次。该方法是贯穿本文的方法论基础,对本文研究工作的开展具有基础性的指导作用。2.本文采用视觉模型方法,对具有仿生特点的分层最大化模型(HMAX)进行了计算理论层次与算法设计层次上的分析,指出其本质上就是视觉词袋模型。基于此分析,本文对分层最大化模型进行了两方面的发展:首先,针对该模型采用的随机视觉单词选取方式存在的误选、低效等问题,将自下而上的视觉注意力约束引入到视觉单词的选取过程中,有效提升了视觉单词选取的有效性与效率,从而有效提升了目标检测的性能;其次,针对视觉词袋模型缺乏对目标几何结构信息进行描述的问题,将分层最大化模型与显式的形状匹配模型结合起来,提出了可区分的形状模型。从计算理论层次上讲,可区分的形状模型引入了一种额外的约束——目标的形状约束。实验表明,目标的形状约束对于提升目标的检测性能是有效的。3、本文采用视觉模型方法,对Pictorial模型与受约束的Pictorial模型进行了计算理论层次与算法设计层次上的分析。针对受约束Pictorial模型的一种设计——星形的形变部件模型(DPM),本文首先注意到了其采用的基于梯度原子原语的HOG特征仍有较大的提升空间,因此本文基于Gabor原子原语提出了一种具有仿生特点的底层特征HOGabor。在PASCAL VOC 2007等数据集上的实验表明,该特征能够显著的提高刚性目标(如飞机、小车等)的检测性能。本文在多个数据集上对形变部件模型进行了全面的评估,并从统计学习理论的角度分析了样本、模型复杂度、模型推广能力之间的关系,对进一步的研究工作具有重要的指导意义。4.针对受约束Pictorial模型的另一种设计——树形的姿态估计模型(POSE),本文指出了其存在的三方面问题:部件的联合分布问题,尺度估计问题和计算效率问题。针对这些问题,本文提出了计算目标最大后验概率(MAP)、基于根部件进行姿态搜索两种改进方案。实验表明,这两种改进方案能够有效提高人体姿态估计的性能与效率。5.对于连续视觉输入,本文基于离线学习的目标先验与在线学习的目标偏置显著性似然,建立了一个实际的视觉贝叶斯模型。该模型采用特征条件独立假设,可以基于同样的底层特征——Gabor原子原语。该模型不同于已有的概念性的或者面向特定用途的视觉贝叶斯模型,很好的展现了在连续视觉输入上统计学习问题的有效简化,展现了自上而下与自下而上两个视觉过程的交互,展现了由粗到细的目标检测过程。整体上看,本文首先总结了视觉研究的方法论基础:视觉模型方法;然后在其指导下主要对三类2D目标检测模型进行了系统性的、理论与实践并重的探讨;在此基础上,本文从多个层面、多个角度对这些2D目标检测模型进行了发展、提升、改进与再创造,一些工作已经具备了潜在的工程应用价值,另一些工作则在理论与方法层面具有一定的学术价值。从相互之间关系来看,这些2D目标检测模型在计算理论层次上存在由简单到复杂的递进关系,而在算法设计层次上则存在两个基本特点:输入由单帧走向连续帧、输出由粗(目标的矩形框)到细(目标的形状、目标的部件)。值得特别注意的是,本文已经得到了由粗到细的2D目标表示,这为走向分层的3D目标表示奠定了坚实的基础。