论文部分内容阅读
图像中包括哪些类别的对象?对象的具体位置在哪里?每一类的对象有几个?对象有什么姿势动作?它们之间的关系又是怎样?如果让人们回答这些问题,是一件很容易的事情。但普遍意义上的计算机理解图像内容,仍然是一个未解的难题。朝着这个最终目标,图像分类与目标检测这两个基础问题,受到了机器视觉领域的广泛重视,有着大量深入的研究。图像分类问题需要回答某一类或某几类对象是否存在于给定的图像中,但不需要给出对象的具体位置。而目标检测问题更为困难,除了要回答图像中存在哪些类别的对象,同时还要给出对象的具体位置。这两个问题既不同又相关。不同之处在于是否需要给出对象具体位置。相关之处在于能够处理目标检测的方法也自然能够完成图像分类,但是这样加大了问题的难度,事实上目标检测的正确率远远不如只作图像分类;但是图像毕竟还是按照目标对象是否存在而分类,图像的类别还是主要由对象所在的区域而决定。
本论文同时考虑了问题之间的差异性与相关性,并将这两者统一看成区域选择问题。假设测试图像中所有对象的范围都被标注清楚,那么无论是图像分类还是目标检测,剩下的工作就只是对范围之内的区域做类别区分。由此可见,这两个问题的特殊之处就在于区域的选择。从区域选择的角度也可以解释目前主要的研究工作与研究难点。
图像分类的优秀方法常常用到各种不同层次不同种类的图像特征合并,有些复杂的方法甚至先采用目标检测得到重点区域,然后再特别加入重点区域中的特征。这些方法虽然没有得到精确的对象区域,但隐含的尽量选择了对象可能存在区域的特征。如何排除掉明显无关的区域,尽量用对象所在区域决定图像类别正是这个问题的难点。
目标检测的两大流派分别是基于分割的方法和滑动窗口方法。前者先将图像预先分割成若干区域,然后判断每个区域是否属于目标类别,这相当于是对区域区域做了选择。此类方法的缺点是检测结果容易受到分割错误的影响,如果区域本身就存在错误,如果区域本身既不是整个对象,也不是对象的某个有效部位,那么无论模型怎么分类,也得不到有意义的检测结果。这时区域选择的难点是如何得到尽量正确的区域。后者将检测窗口置于图像中的每个位置,然后判断窗口内部是否包含目标对象,这种区域选择的方式就更为直接。此类方法虽然检测精确度较高,但检测速度较慢,而且还需要后处理方法压缩多个重合的检测窗口。此时的难点是如何尽量减少窗口搜索的区域。如果能有一种方法提供较为稳定准确的对象出现的位置,就可以只将窗口置于提供的那些位置上进行检测。
本论文从区域选择这个统一的角度出发,并根据具体问题与难点的不同,提出不同的图像分解方法,以及对分解得到的区域选择利用的方法。
针对图像分类的区域选择难点,本论文提出一种新的机器学习框架-分解学习。它同时利用了有类别和无类别的数据,以类似于子空间聚类的方式搜索图像原始输入空间中的有效区域。每个区域被看作类别概念的子概念,单个基础分类器在每个区域中独立训练,其输出将作为新特征空间的一个高层特征。在重建的新特征空间中训练最终分类器。实验在MNIST手写数字数据集和Caltech101图像分类数据集上进行,分解学习在不采用任何与机器视觉相关的特征提取方法的情况下,仍然有效的提高了分类的正确率。
针对基于分割的目标检测方法的区域选择难点,本论文提出一种最大化间隔分割选择方法。每张图像经过多种互补的分割方法预处理,得到多包区域,其中存在一包相对较好的对象分割结果。分割选择的目标是将每张图像的最佳分割结果选择出来,将其中的区域拿出组成训练集。“分割选择+分类”被统一建模为最大化间隔问题,目标函数被表示为二次规划的形式。此目标函数经过推导转化,得到其最终的对偶形式,并通过模拟煺火解法得到近似最优解。实验在PASCAL VOC2007数据集上进行,在绝大部分类别上,分割选择方法的检测精确度超过了单一分割方法。
针对滑动窗口目标检测方法的区域选择难点,本论文提出一种区域位置提示的可变形模型候选点检测算法。我们延续了上面的研究工作,通过仔细观察采样图像的分割结果,发现一个有趣的事实:虽然几乎每张图里都存在分割错误,但是在大多数情况下总会有某个区域的边角与对象真实位置的边角很接近。由此,如果重用之前的分割结果,检测窗口只需要置于这些边角位置,就可以避免大量不必要位置上的穷举搜索。可变形部分模型保证了检测器本身的精确性,而分割位置提示保证了检测的效率,同时避免了后处理操作。实验仍然在PASCAL VOC2007数据集上进行,候选点检测算法在一半类别上超过了穷举搜索方法。
除了以上难点之外,目标检测在具体训练时还有容易被忽视的地方。目标检测的训练数据由少量的目标对象和大量的其他对象或背景组成。这是典型的不平衡数据集,目标类别在其中只占一小部分。不平衡数据集往往会降低分类的性能,尤其是作为目标对象的少数类容易被忽略。针对此问题,本论文提出了一种处理不平衡数据的支持向量机-IISVM,并将其引入到最大化间隔分割选择的训练中,进一步提高了目标检测的结果。
本论文的最后对研究工作进行了总结,说明了几种区域选择利用方式之间的发展过程。另外,本文还从人类检测图像物体的角度阐述了目前这两个问题无法彻底解决的原因,以及今后可能的发展方向。