论文部分内容阅读
图像分类及检测是计算机视觉领域最基本也是最核心的研究任务。为了深入理解图像,我们需要捕获图像中的关键信息并对这些信息进行有效的描述。然而,对这些关键部位的定位由于标注信息的缺失通常变得非常困难。而视角变化,光照变化,物体形变和遮挡等情形也使得现有物体定位技术存在许多不足。另一方面,由于传统的图像底层特征表达和高级语义特征之间存在语义鸿沟,这些特征表达对于特定的应用并不是最优的。因此,设计针对特定应用的图像特征对提高性能至关重要。本文的主要研究内容为基于局部特征的图像理解以及应用,主要包括局部定位以及描述技术,并对现有的一些部件定位以及特征描述技术提出了针对性的解决方案。这里的局部可以表示我们感兴趣的显著性区域,目标物体或者物体部件等,本文针对如何获取这些局部信息的位置并且如何进行高效的表达提出了相应的算法,并将这些算法应用于精细粒度物体识别,弱监督场景下的物体定位以及检测任务。本文的主要创新点包括以下几个方面:本文提出了一种针对精细粒度识别的部件定位以及特征描述方法。首先,对于部件定位,我们使用模板类检测子定位形变较小的头部区域,这些定位的头部信息可以被视作整个物体的语义先验。其他形变较大的区域则通过头部语义先验和物体轮廓信息获取。对特征描述而言,我们学习了一种新的一对多(One-vs-All)中级特征用于精细粒度识别,该特征简单有效,易于移植,并且在维度上远低于相应的低级特征。更进一步,考虑到一些子类之间非常相似,我们通过邻域结合(Neighbor Joining)策略迭代地融合相似子类,然后学习融合的一对多中级特征(Fused One-vs-All)用于识别。上述几个模块的结合产生了一个非常有效的精细粒度识别框架,在广泛使用的精细粒度数据集上获得了较之前工作更好的识别性能。本文提出了一种自动化的定位与描述方法用于精细粒度识别。该识别方法不需要提供针对特定数据集的物体/部件人工标定。我们的方法利用卷积神经网络用于精细粒度目标的定位以及描述。该方法的主要贡献在于以下两个方面。首先,我们利用卷积网络神经元的选择特性选取对特定图案模式响应强烈的神经元。然后基于这些选取的神经元初始化检测模型,并且通过正则化多示例学习显式地训练检测子以提高其定位能力。其次,我们提出了一种简单有效的针对精细粒度目标的特征表达方法,即空间加权的费舍尔向量编码策略(SWFV-CNN),SWFV-CNN把神经元响应看做局部化描述子,考虑每个描述子对最终识别性能影响不同,通过空间加权费舍尔向量编码方式池化每一个描述子到全局表达。上述两种方案的结合得到了一个非常有效的精细粒度识别框架,并且在几个广泛使用的数据集上获得了显著的性能提升。本文提出了一种用于弱监督场景图像表达以及定位的方法。该方法的主要贡献在于设计了一种针对检测子学习的迭代最优化策略,把检测子学习转化为一个置信损失稀疏多示例学习(confidence loss Multiple Instance Learning,cls-MIL)任务。不同于传统的多示例学习方法中从每一个正包图像中挖掘单一示例用作特定物体表达,并且平等的对待每一个正包图像,本章提出的置信损失稀疏多示例学习方法表达每幅图像为其中示例的稀疏线性组合,考虑了正包图像的多样性。进一步,我们通过对每一幅正包图像赋予一个置信度度量其可靠性,从而在考虑了图像的多样性基础上又避免了偏离置信度高的图像。学习的检测响应形成了一种有效的中级特征表达。另外一个比较有趣的发现是不同于之前的方法把图像分类和物体定位看作不同的任务,我们提出的方法能够有效地把这两个任务集成到同一框架。得益于学习的检测子的强区分能力,检测子响应能够揭示物体的大致位置。实验表明我们提出的特征表达方法的有效性。本文提出了一种弱监督场景下的端到端物体检测框架,该检测框架试图结合在线物体示例挖掘和语义相关损失建模检测模型。不同于先前的检测方法首先从弱标签图像中挖掘目标物体示例,然后独立训练物体检测模型,我们把这两个模块整合到一个统一框架。基本原理就是通过训练一个端到端的检测系统,该系统能够同时进行物体示例挖掘以及检测模型训练。为了实现这个目标,我们把网络训练流划分成两个子流,一个子流用于图像层级分类,另一个子流用于物体层级检测。由于我们只有训练图像标签而没有具体的物体示例标定,物体示例通过分类流输出在线挖掘。通过联合训练两个不同的分支形成一个多任务学习过程,我们发现两个学习任务之间可以相互促进。