基于分割的机器学习方法以及在图像分类和目标检测方面应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lostlovestefan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像中包括哪些类别的对象?对象的具体位置在哪里?每一类的对象有几个?对象有什么姿势动作?它们之间的关系又是怎样?如果让人们回答这些问题,是一件很容易的事情。但普遍意义上的计算机理解图像内容,仍然是一个未解的难题。朝着这个最终目标,图像分类与目标检测这两个基础问题,受到了机器视觉领域的广泛重视,有着大量深入的研究。图像分类问题需要回答某一类或某几类对象是否存在于给定的图像中,但不需要给出对象的具体位置。而目标检测问题更为困难,除了要回答图像中存在哪些类别的对象,同时还要给出对象的具体位置。这两个问题既不同又相关。不同之处在于是否需要给出对象具体位置。相关之处在于能够处理目标检测的方法也自然能够完成图像分类,但是这样加大了问题的难度,事实上目标检测的正确率远远不如只作图像分类;但是图像毕竟还是按照目标对象是否存在而分类,图像的类别还是主要由对象所在的区域而决定。   本论文同时考虑了问题之间的差异性与相关性,并将这两者统一看成区域选择问题。假设测试图像中所有对象的范围都被标注清楚,那么无论是图像分类还是目标检测,剩下的工作就只是对范围之内的区域做类别区分。由此可见,这两个问题的特殊之处就在于区域的选择。从区域选择的角度也可以解释目前主要的研究工作与研究难点。   图像分类的优秀方法常常用到各种不同层次不同种类的图像特征合并,有些复杂的方法甚至先采用目标检测得到重点区域,然后再特别加入重点区域中的特征。这些方法虽然没有得到精确的对象区域,但隐含的尽量选择了对象可能存在区域的特征。如何排除掉明显无关的区域,尽量用对象所在区域决定图像类别正是这个问题的难点。   目标检测的两大流派分别是基于分割的方法和滑动窗口方法。前者先将图像预先分割成若干区域,然后判断每个区域是否属于目标类别,这相当于是对区域区域做了选择。此类方法的缺点是检测结果容易受到分割错误的影响,如果区域本身就存在错误,如果区域本身既不是整个对象,也不是对象的某个有效部位,那么无论模型怎么分类,也得不到有意义的检测结果。这时区域选择的难点是如何得到尽量正确的区域。后者将检测窗口置于图像中的每个位置,然后判断窗口内部是否包含目标对象,这种区域选择的方式就更为直接。此类方法虽然检测精确度较高,但检测速度较慢,而且还需要后处理方法压缩多个重合的检测窗口。此时的难点是如何尽量减少窗口搜索的区域。如果能有一种方法提供较为稳定准确的对象出现的位置,就可以只将窗口置于提供的那些位置上进行检测。   本论文从区域选择这个统一的角度出发,并根据具体问题与难点的不同,提出不同的图像分解方法,以及对分解得到的区域选择利用的方法。   针对图像分类的区域选择难点,本论文提出一种新的机器学习框架-分解学习。它同时利用了有类别和无类别的数据,以类似于子空间聚类的方式搜索图像原始输入空间中的有效区域。每个区域被看作类别概念的子概念,单个基础分类器在每个区域中独立训练,其输出将作为新特征空间的一个高层特征。在重建的新特征空间中训练最终分类器。实验在MNIST手写数字数据集和Caltech101图像分类数据集上进行,分解学习在不采用任何与机器视觉相关的特征提取方法的情况下,仍然有效的提高了分类的正确率。   针对基于分割的目标检测方法的区域选择难点,本论文提出一种最大化间隔分割选择方法。每张图像经过多种互补的分割方法预处理,得到多包区域,其中存在一包相对较好的对象分割结果。分割选择的目标是将每张图像的最佳分割结果选择出来,将其中的区域拿出组成训练集。“分割选择+分类”被统一建模为最大化间隔问题,目标函数被表示为二次规划的形式。此目标函数经过推导转化,得到其最终的对偶形式,并通过模拟煺火解法得到近似最优解。实验在PASCAL VOC2007数据集上进行,在绝大部分类别上,分割选择方法的检测精确度超过了单一分割方法。   针对滑动窗口目标检测方法的区域选择难点,本论文提出一种区域位置提示的可变形模型候选点检测算法。我们延续了上面的研究工作,通过仔细观察采样图像的分割结果,发现一个有趣的事实:虽然几乎每张图里都存在分割错误,但是在大多数情况下总会有某个区域的边角与对象真实位置的边角很接近。由此,如果重用之前的分割结果,检测窗口只需要置于这些边角位置,就可以避免大量不必要位置上的穷举搜索。可变形部分模型保证了检测器本身的精确性,而分割位置提示保证了检测的效率,同时避免了后处理操作。实验仍然在PASCAL VOC2007数据集上进行,候选点检测算法在一半类别上超过了穷举搜索方法。   除了以上难点之外,目标检测在具体训练时还有容易被忽视的地方。目标检测的训练数据由少量的目标对象和大量的其他对象或背景组成。这是典型的不平衡数据集,目标类别在其中只占一小部分。不平衡数据集往往会降低分类的性能,尤其是作为目标对象的少数类容易被忽略。针对此问题,本论文提出了一种处理不平衡数据的支持向量机-IISVM,并将其引入到最大化间隔分割选择的训练中,进一步提高了目标检测的结果。   本论文的最后对研究工作进行了总结,说明了几种区域选择利用方式之间的发展过程。另外,本文还从人类检测图像物体的角度阐述了目前这两个问题无法彻底解决的原因,以及今后可能的发展方向。
其他文献
企业内部控制是企业提高管理水平和防范风险的一种有效机制。企业信息化与工业化的及渐融合使信息技术(IT)成为企业管理不可或缺的平台,也成为企业内部控制的重要手段。而随着
报文分类作为实现网络安全和QoS路由的核心技术,在近几年有着很高的关注度。虽然目前已有很多基于软件的报文分类算法,但他们或是需要很长的预处理时间,或是有着令人无法接受
认知图是一种新型知识表达和知识管理工具,它能以图形的形式直观地描述现实环境中的实体以及实体间的因果关联。因其具有直观的知识表达能力、强大的基于矩阵的推理机制等特点
作为一种新型的移动多跳无线网络,移动Ad Hoc网络由于建网方式灵活、配置快捷方便和构造成本较低,已经被广泛应用在军事、会议和紧急援救等一些需要临时组网的环境中,随着移
近年来,随着视频数据的增加,基于语义的视频检索成为一个研究热点。在推动高效的视频检索和视频挖掘的过程中,自动的语义概念检测扮演重要的角色,因为它是跨越低层特征和高层
随着Web服务技术的快速发展与成熟,Web服务的应用越来越广泛,Internent上的Web服务数量越来越多。如何从众多的Web服务中快速的发现并选择出既满足服务消费者的功能性需求,又
随着高职院校教学管理现代化进程的加快和教学体制的改革,各大院校的教务管理正向“规范化、信息化、网络化”的方向发展,而基于学分制的选课方式也被运用到教学管理中。基于
为保护数字作品版权人的利益,数字版权管理DRM技术得到人们的广泛认同。然而DRM技术重在保证获得权限的用户可以访问数字内容,却在支持权限的合理转移方面略显不足。对应传统的
20世纪以来,不确定性的科学价值和现实意义逐渐被人们所接受。学者们通过对概率论、模糊集理论以及近年来发展起来的粗糙集理论的应用,使得不确定性问题的研究取得了很大进展,其
认知图是一种软计算工具,是近年来兴起的一种新的知识管理方法和知识表达工具,它可以用来表示相关领域中实体之间的因果关系。认知图推理就是在认知图的基础上,利用已知的知