论文部分内容阅读
图像分类在机器学习、计算机视觉和模式识别等领域占据重要地位,图像分类模型一般由图像特征抽取、特征变换和增强、分类器训练等步骤组成。为了得到有效的特征表示,早期特征抽取主要采用手工设计方式,常常依赖于特征设计者的领域知识。随着深度学习技术发展,更多图像分类模型利用深度网络进行特征抽取。深度网络特征既可以通过端到端训练的方式获得,也可以利用大规模图像库上训练好的深度网络在图像上直接抽取。前者需要大量训练图像来拟合网络参数,计算代价高;后者由于缺乏监督信息的导引,其判别性仍需加强。作为一种有效的特征变换和增强技术,特征编码在图像分类中得到快速发展,但在实际应用中仍面临不少挑战,如图像类别多但带标签训练样本少、同类图像变化大而非同类图像区分度低、待识别类没有训练样本、图像不同层级特征间编码效率低、特征编码算法运行稳定性差等。为应对以上挑战,本文利用多种手工与深度网络特征表示形式,开展了基于特征编码的图像分类技术研究,主要工作和创新点有:1、提出一种基于多层字典学习与特征编码的图像分类模型,将原图像整体级手工或深度网络特征转换成深层编码特征。与基于单层字典学习的特征编码方法相比,所提模型能够减少原图像数据中噪声影响,增强字典原子鲁棒性,提高含噪图像的分类效果。通过逐层字典学习与特征编码实现原图像特征的连续非线性投影变换,增大了非同类编码系数特征的分离性。得益于分类器监督训练和多层学习整合,充分挖掘了图像数据中复杂的结构信息,提升原图像整体级特征的判别性。最后,通过利用拉普拉斯图矩阵来避免编码特征中极大值的产生,减少了过拟合风险及测试图像分类误差。与单层特征编码方法和深度网络模型相比,所提模型兼顾了图像分类正确率与运行效率,在多种基准图像库上的实验结果展示了优异的分类性能。2、提出一种类稀疏分布编码特征生成方法,实现了图像样本更好的分类。针对图像分类中编码特征生成机制问题,所提方法首先利用训练样本类标签建立标签信息感知项,通过增强同类样本编码系数值、抑制非同类样本编码系数值,产生具有类一致稀疏分布的编码特征;其次利用样本局部结构信息构建图正则化项,与类标签感知项共同作用既能生成更平滑的稀疏编码特征,又可以学到鲁棒的字典;另外引入支持向量分类器项,实现了非同类编码特征的大间隔分离。以上各项在学习过程中相互作用和强化,最终将原图像特征变换成更适宜分类的类稀疏分布编码特征。由于构建的约束项均采用L2范数,避免了耗时的L0/L1范数求解过程,使得所提方法能够满足图像实时分类需求。实验结果表明,所提方法产生的类稀疏分布编码特征增强了各类原手工或深度网络特征的判别性。3、针对归纳式和直推式零样本图像分类场景,分别提出两种基于堆叠语义自编码器的分类模型。在归纳式零样本图像分类场景中,非可见类测试图像在训练阶段不可获取,此时如何将可见类数据中学习的知识迁移至非可见类数据中至关重要。为此,提出一种基于流形配准的堆叠语义自编码器模型,可以建立图像特征空间、语义描述空间和类标签空间之间的紧致关系,缩小语义鸿沟;通过在模型中融入流形配准项,有效填补了类域鸿沟。与相关零样本图像分类方法相比,模型的泛化能力更强,能够在可见/非可见类数据间进行高效知识迁移。针对非可见类测试图像在训练阶段可获取的直推式分类场景,进一步提出域感知堆叠语义自编码器模型,由两个存在知识交互的并列堆叠自编码器组成,其中一个基于可见类训练图像构建,另一个用来拟合非可见类测试图像。实验结果显示所提两个“编码—解码”范式的零样本图像分类模型,在传统和广义分类效果评价准则下均取得优异性能。