论文部分内容阅读
物体检测是一项针对输入图像输出图像中属于某一类或某几类物体位置(即物体在哪里,通常用物体的外接矩形框表示)的视觉任务。它是计算机视觉和模式识别领域的热点和难点问题,在视频监控、车辆辅助驾驶、无人驾驶、海量视频和图像检索等领域有着广泛应用。针对物体检测,本文主要研究层级构成式物体表示(Hierarchicaland Compositional Object Representation)的数学建模和判别式学习方法,包括隐式的平坦结构物体表示和显式的多层次结构表示。本文提出了用于物体检测的稀疏图像块模型,建立物体超完备图像块备选集以及物体的稀疏图像块表示,隐式地表达了物体的结构(平坦结构,Flat structure),通过采用类似AdaBoost的学习算法对模型进行训练。实验表明,该方法能够自动从数据中学习得到用于物体检测的鲁棒图像块子集以及它们的权重。本文提出了一种通用的量化与或图模型(QuantizationAnd-Or Graph)和动态规划算法(Dynamic Programming, DP),用于解决物体检测模型学习过程中的隐含模型结构寻优的难题。为了处理物体在图像中呈现的结构和外观的变化(包括姿态、视角、尺度、光照、遮挡、形变和复杂背景等等),通常需要采用“分而治之”和“化繁为简”的思路,建立多层次和构成式的物体模型结构。但在物体检测的训练数据中,通常只提供物体外接矩形框的标注信息,物体模型结构成为隐含变量,本文提出的量化与或图能够非常有效地展开和组织隐含的模型结构空间,涵盖所有可能的部件配置情况,同时可以采用动态规划算法在量化与或图中寻优,找到一类物体的最优部件配置。本文提出了基于判别式学习的物体与或树模型,面向目前国际上最常用,也是最有挑战性的通用物体检测数据库PASCALVOC。在上述量化与或图的基础上,提出了一种基于与或图的结构化图像相似性度量算法,用于物体“子类”的无监督学习(如不同“子类”对应于不同视角下的物体图像,但视角信息本身在训练数据中未知),提高物体模型结构学习的鲁棒性;提出一种物体“子类”最优部件配置的弱监督学习方法,采用判别式分类错误率作为标准来通过量化与或图遍历所有可能的部件配置,从而得到物体的最优与或树模型结构;在包含隐含变量的结构化支持向量机框架下,研究了模型参数的学习。由于模型结构保持树结构,物体检测可以采用十分高效的动态规划算法。实验中,在PASCAL VOC测试数据库上,本文提出的物体与或树模型达到了同等可比的最优检测性能。