论文部分内容阅读
作为高维数据分析的有效工具,子空间学习已被广泛应用于各类机器学习和计算机视觉任务中。从无监督的数据降维到有监督的判别式分析,从局部的多结构发现到跨领域的共享知识表示,从人脸识别到动作分割,子空间学习都发挥着重要作用。在其众多应用当中,有一类问题近期引起了研究者的关注,这便是图像集分类。与传统的,以单个样本为分类对象的方法不同,图像集分类适合处理那些内部变化丰富的分类对象,如视频片段,多角度的物体照片等。其在提供待分类对象丰富信息的同时,还可以简化分类流程,降低标注负担。子空间的结构特性使其非常适合于对单个集合建模。目前,基于子空间的图像集分类通常存在一些问题。第一,集合内部结构的复杂性,使得单一子空间的集合表示很难反映出复杂的集合内变化。第二,基于成对集合距离学习的图像集分类方法忽略了集合间关系,特别是在集合内样本不足时,会带来较大的度量误差。第三,当把子空间看成黎曼流形上的一个点时,流形学习会大大拓展图像集分类的研究范围,但集合的异质性使得单一的流形无法充分刻画集合的结构特征。第四,在把流形降维分析用于图像集分类时,通常采用核方法,这使得很难直接获得低维流形的显式表示,并带来过大的计算负担。针对这些问题,本文的主要工作包括:(1)针对复杂的集合结构,提出了基于受限弹性网(constrained elastic-net)的子空间聚类算法,用于挖掘集合内的多子空间结构。在该方法中,数据间的自重构系数被用来表示数据间相似度,进而使用谱聚类的方法获得最终的聚类指派。为了获得更加鲁棒的表示系数,引入了加权l1范数与Frobenius范数的组合约束项。其中加权l1范数使用基于形状交互矩阵(shape interaction matrix)的加权策略,以增加同一子空间的数据点的内聚性和不同子空间的数据点的可分性。(2)针对多集合下的数据表示问题,提出了基于组协作表示(group collaborative representation,GCR)的图像集表示方法。在该方法中,首先利用子空间聚类算法从训练集合中抽取多个子空间结构。进而获得单幅训练图像到多个训练集合的表示(point-to-sets representation,PSsR)及单个测试集合到多个训练集合的表示(set-to-setsrepresentation,SSsR)。其中PSsR有助于缓解由集合内样本不足引起的性能退化问题,SSsR有助于提升测试集合表示的鲁棒性和测试阶段的效率。(3)针对采用单一流形对集合建模的表示性不足问题,提出了半监督多流形学习框架(semi-supervised learning on multi-Riemannian manifolds,SSMM),其把半监督学习和多流形学习整合成一个统一的优化过程。该框架主要由一组半监督学习器组成,通过多种流形度量间的互补性来提升学习性能。不同于传统的基于图的半监督学习方法,其图的构建和标签传播被分为两个独立的部分。该框架不仅可以为标签传播提供每个流形上数据的图表示,而且可以回传来自多个流形的监督信息和结构信息来指导图的构建。(4)针对集合建模中判别性流形表示问题,以三元损失函数(tripletloss)为基础,提出了适应性聚类三元损失函数(adaptive cluster triplet loss,ACTL)。该方法同时考虑聚类中心之间,聚类中心与样本之间的关系。聚类中心的引入可以提升鲁棒性并降低约束的数量。同时,采用聚类中心与样本之间的距离代替原有三元损失函数中采用硬指派确定的间隔,则有助于提升方法的适应性。通过在对称正定矩阵流形和欧氏空间内应用该损失函数验证了其有效性。