论文部分内容阅读
近年来,计算机视觉中的识别任务,图像分类、目标物体定位、图像语义分割等,在有监督机器学习框架中取得具有前景的效果。然而,这样的机器学习系统要能在实际任务中被广泛使用,具有良好的表现和鲁棒的性能,需要依赖于大量精确标注的训练数据。获得大量精确标注的训练数据需要高昂的时间和人力成本。探索在尽可能使用少量标注情况下获得良好性能的机器学习方法(即有限监督学习方法)有助于降低获取精确标注样本所需要的时间和人力成本。因此,本文围绕着有限监督学习,研究了典型应用于图像分类中的基于图的半监督学习算法、基于全卷积网络的弱监督目标定位算法以及少样本语义分割算法,分别提出新的改进算法并进行实验验证。具体进行的主要研究工作包括:1、基于图的半监督分类算法中,快速弹性流形嵌入算法的研究。本文研究的第一个问题是基于大规模图的多类分类半监督学习问题。现有的可应用于大规模数据集的基于图的半监督学习方法大多不能处理未见样本或是基于硬线性约束,这限制了它们的应用范围和算法学到的模型性能。为此,本文在前人工作的基础上,提出了两种新的线性复杂度的算法,快速弹性流形嵌入算法(f-FME)和简化弹性流形嵌入算法(r-FME)。这两种方法都加速了FME算法[1],同时继承了其优点。具体地,本文提出的方法通过将回归残差项和流形平滑项相结合来解决硬线性约束问题,这自然地为处理未见样本提供了预测模型。为降低计算成本,利用少量锚点与所有数据点之间的底层关系构造图邻接矩阵,从而得到简化的闭式解。所得到的f-FME和r-FME算法不仅在时间和空间复杂度上对训练样本的数量来说是线性关系,同时能有效地利用有标记和未标记数据的信息。实验结果表明了该方法性能上的有效性和计算复杂度上的高效性。2、在全卷积神经网络框架下,研究基于全局加权平均池化方法的弱监督目标像素级定位方法。本文所解决的第二个问题是,基于全卷积神经网络,如何在只有图像级标签的训练样本的情况下,同时进行像素级定位和图像级分类的问题。过去的方法中使用的是全局最大池化和平均池化方法,这两种方法由于其硬编码和不可学习性,很难在弱监督学习过程中指示目标对象的精确区域。针对此,本文重点研究了在弱监督目标像素级定位这项任务中起关键作用的全局池化方法,探索了全局加权平均池化(GWAP)方法在该任务中的应用,提出了类不可知(class-agnostic)的GWAP模块和类特定(class-specific)的GWAP模块。本文在ILSVRC基准数据集上评估了所提出方法的图像分类和目标像素级定位能力。实验结果表明,所提出的模块能较好地捕获前景物体区域。此外,本文还进一步探讨了弱监督图像分类任务与基于区域的目标检测任务之间的知识迁移问题。提出了一个多任务框架,将类特定的GWAP模块与R-FCN相结合。该框架采用少量的拥有目标精确边界框的数据和大量只有图像级标签的数据进行训练。本文在PASCAL VOC数据集上评估这个框架。实验结果表明,该框架可以利用只有图像级标签的数据来提高目标检测模型的泛化性。3、针对少样本图像语义分割问题,研究联合上下文信息的内外相似性网络。由于精确的有标记分割样本收集成本高的问题,近年来少样本图像语义分割任务引起了人们的广泛关注。针对这个任务特点,考虑到使用少数几个有标记样本图像对预训练的分割网络进行微调很容易产生过拟合,过去的方法采用两分支结构,用支持图分支引导查询图分支的图像语义分割过程。然而,过去的工作只考虑了支持图和查询图之间的特征相似性,未能充分利用好查询图自身的自相似性。本文所解决的第三个问题是如何更好地利用查询图自身信息并融合支持图信息来提升少样本图像语义分割任务的性能。为此,本文提出了一种新的内外相似性网络(EICNet),在有效避免过拟合的情况下将来自支持图的信息和来自查询图的信息结合起来。本文还提出了两种额外有效的策略,包括结合全局上下文信息的特征增强和使用双尺度查询图输入网络来进一步提高性能。本文在基准数据集PASCAL VOC 2012-5上进行了广泛的实验。跟基准网络对比,所提出的方法EICNet完整版在性能上提升了3.6%。丰富的控制实验证明了每一项改进的有效性。实验发现查询图的内在相关性为更好的少样本语义分割性能提供了补充信息,本文提出的网络结构有效地利用了这种信息。