论文部分内容阅读
摘 要:本文介绍了一种新的用于图像集分类的方法,在这种方法中每个训练样本和测试样本都包含一个对象的捕获于不同视角或不同光照的一组图像实例。近年来,大量的图像集分类算法被提出,这些方法中大多数方法将每个图像集看作成一个单独的线性子空间或者线性空间的混合,这就可能导致用于分类的鉴别信息丢失。为了解决这个问题,我提出了利用多阶统计量作为图像集的特征,并且实现了一种局部多核度量学习(LMKMLA)算法,它通过有效的结合不同阶的统计量信息来实现分类。我们的算法在Honda/UCSD、CMUMobo、YouTube人脸数据库和ETH-80这四个广泛使用的数据库上达到了先进的性能。
关键词:图像集分类 全局多阶统计 局部多核度量学习 DCC MMD MDA
一、引言
近年来,图像集分类在计算机视觉和模式识别领域已经吸引了越来越多的兴趣,这归因于诸如视频监控和多视图图像分析等潜在的广泛应用。基于视频的人脸识别问题是一个有代表性的图像集分类应用,在这个应用中每个用于训练的人脸视频和用于测试人脸视频都被认为是一个图像集,这些图像集的特征用于身份鉴别。不同于训练样本和测试样本都是单个图像的传统的图像分类问题,对于图像集分类来说,每个训练样本和测试样本包含一组图像。与单张图像相比,图像集能够提供更多的用于描述我们感兴趣物体的信息。因为,在通常情况下,一个图像集的类内变化是很大的,因此挖掘图像集的鉴别信息是非常有挑战的事情。在过去的20年里,在图像集分类问题上已经做了很多工作。据我们所知,大多数图像集分类方法通常会做一些事先的假设,例如,用单高斯、高斯混合模型、子空间和流行模型来表示一个图像集。在很多实际应用中,那些假设通常是不成立的,特别是当一个数据集有大量并且复杂的数据变化的时候。因此,基于那些假设提出的模型可能会使一些用于分类的鉴别信息丢失。在文中,我们提出了一个用于图像集分类的新方法。给定一个图像集,我们计算它的全局多阶统计量作为代表该图像集的特征。因为在我们的方法中不需要参数估计,与大多数的图像集模型相比,我们的多阶统计量特征能够鲁棒的用一种全局的方式捕获一个图像集中图像的分布信息。更进一步来说,它们通常对噪声是不敏感的,因为大部分含有噪声的样本都在提取统计量特征的时候被过滤掉了。为了更好的应用从不同阶的统计量中提取的信息,我们进一步提出了局部多核度量学习算法来学习一个距离度量,在这种情况下,有效地结合不同阶的统计量可以挖掘更多的用于分类的鉴别信息。我们算法在四个广泛使用的图像集数据库上的实验结果表明我们提出的算法是高效的。我们方法的基本思路如图1所示。
图1我们方法的基本含义
如图1所示,对于每个图像集,我们首先计算它的多阶统计量作为特征表示。对于每阶统计量,我们计算一个核矩阵来度量两个图像集之间的相似度。然后,我們通过局部多核度量学习(LMKMLA)方法结合不同阶的统计量来学习一种距离度量。最后,使用最近邻分离器进行分类。
二、相关工作
图像集分类:近年来,在开发图像集分类的算法上人们表现出了越来越高的兴趣。这些算法基本上可以分为两类:有参数的和无参数的。与那些工作相比,我们的贡献主要是如下两个方面,第一,提取多阶统计量特征来可靠的代表一个图像集;第二,提出了一个局部多核度量学习算法。因为我们的方法它考虑并利用了图像集的多个不同阶的统计量,因此,它能够提取更多的鉴别信息。我们的算法在现有的公开数据库上进行图像集分类时能够取得先进的性能。尽管在分类、聚类、迁移学习、维度缩减等方面已经取得了不少的成绩,但是在使用多核学习方法的度量学习方面却少有进展。最近,wang等人提出了通过在整个空间上学习一个统一权重向量的多核度量学习方法。我们的方法是对这个多核学习方法的补充和完善。
三、提出的算法
图1展示了我们提出算法的流程。对于每个图像集,我们首先提取它的多阶统计量为图像集建模。对于每一阶的统计量,我们计算一个核矩阵去度量两个图像集之间的相似度。然后,结合不同阶的统计量信息提出LMKMLA算法,使用该算法学习一个具有鉴别性、局部的距离度量。最后,使用最近邻分类器进行分类。在随后的几节中将对其进行详细的描述。
1.用多阶统计量对图像集进行建模。假设是一个对象对应的个不同的图像,其中表示第幅图像。图像的像素值用作原始的特征。给定一个图像集,我们提取如下的不同阶的统计量信息作为特征来表示这个图像集。多阶统计量能够可靠的描述一个图像集中图像样本的分布情况,因此,它们可以用作图像集的特征。
一阶统计量:均值向量m展示了一个图像集在高维空间中平均位置。
二阶统计量:
图像集的协方差矩阵表示图像集中每对样本的个体特征之间的相关性。
三阶统计量:
图像集的协方差矩阵和均值的外积构成的三阶张量可以测量协方差矩阵和均值之间的关系。
其中,是一个维的向量,是一个的矩阵,是一个的张量。表示两个矩阵的克罗内克积。对于每个图像集也可以计算出更高阶的统计量。但是,在我们的方法中仅考虑前三阶,因为更高阶统计量特征的计算代价是很高的。
2.相比以前的图像集表示方法,用多阶统计量信息对图像集进行建模有如下优势。
2.1在数据分布上不需要做假设并且对于包含任意多个图像的图像集来说,这些统计量特征都可以计算出来。
2.2不同阶的统计量信息能够从不同的角度表示图像集的特征。例如,均值向量能够粗略的反应对象在高维空间中的位置,协方差矩阵表示对角元素的每个不同特征的变化,它也可以用来测量非对角元素不同特征之间的相关性。因此,那些统计量特征能够为表示一个图像集提供补充信息。
2.3那些统计量特征对轮廓更具鲁棒性,特别是在与基于最近样本对的图像分类方法对比时,因为这些统计量是图像集中全部图像的统计量并且含噪声样本的影响能够被极大的消除。
3.局部多核度量学习。在提取多阶统计量信息后,我们使用最近邻分类器完成分类,在此分类器中涉及两个图像集相似度的计算。鉴于核空间学习取得的巨大成功,我们在核空间比较两个统计量特征。这等价于将原始统计量特征映射到一个新的空间。我们用表示第个统计量特征对应的新特征,映射函数记为,其中是原始特征空间,是映射到的高维空间。尽管通常是隐式的,为了简单起见,我们先将它认为是一个显式的特征向量。通过某些处理,能够通过使用核技巧获得的核值表示出来。
作者简介:李娜(1985—),女,江西南昌人,汉 助教,硕士,九江学院电子商务学院。研究方向:大数据,电子商务。
关键词:图像集分类 全局多阶统计 局部多核度量学习 DCC MMD MDA
一、引言
近年来,图像集分类在计算机视觉和模式识别领域已经吸引了越来越多的兴趣,这归因于诸如视频监控和多视图图像分析等潜在的广泛应用。基于视频的人脸识别问题是一个有代表性的图像集分类应用,在这个应用中每个用于训练的人脸视频和用于测试人脸视频都被认为是一个图像集,这些图像集的特征用于身份鉴别。不同于训练样本和测试样本都是单个图像的传统的图像分类问题,对于图像集分类来说,每个训练样本和测试样本包含一组图像。与单张图像相比,图像集能够提供更多的用于描述我们感兴趣物体的信息。因为,在通常情况下,一个图像集的类内变化是很大的,因此挖掘图像集的鉴别信息是非常有挑战的事情。在过去的20年里,在图像集分类问题上已经做了很多工作。据我们所知,大多数图像集分类方法通常会做一些事先的假设,例如,用单高斯、高斯混合模型、子空间和流行模型来表示一个图像集。在很多实际应用中,那些假设通常是不成立的,特别是当一个数据集有大量并且复杂的数据变化的时候。因此,基于那些假设提出的模型可能会使一些用于分类的鉴别信息丢失。在文中,我们提出了一个用于图像集分类的新方法。给定一个图像集,我们计算它的全局多阶统计量作为代表该图像集的特征。因为在我们的方法中不需要参数估计,与大多数的图像集模型相比,我们的多阶统计量特征能够鲁棒的用一种全局的方式捕获一个图像集中图像的分布信息。更进一步来说,它们通常对噪声是不敏感的,因为大部分含有噪声的样本都在提取统计量特征的时候被过滤掉了。为了更好的应用从不同阶的统计量中提取的信息,我们进一步提出了局部多核度量学习算法来学习一个距离度量,在这种情况下,有效地结合不同阶的统计量可以挖掘更多的用于分类的鉴别信息。我们算法在四个广泛使用的图像集数据库上的实验结果表明我们提出的算法是高效的。我们方法的基本思路如图1所示。
图1我们方法的基本含义
如图1所示,对于每个图像集,我们首先计算它的多阶统计量作为特征表示。对于每阶统计量,我们计算一个核矩阵来度量两个图像集之间的相似度。然后,我們通过局部多核度量学习(LMKMLA)方法结合不同阶的统计量来学习一种距离度量。最后,使用最近邻分离器进行分类。
二、相关工作
图像集分类:近年来,在开发图像集分类的算法上人们表现出了越来越高的兴趣。这些算法基本上可以分为两类:有参数的和无参数的。与那些工作相比,我们的贡献主要是如下两个方面,第一,提取多阶统计量特征来可靠的代表一个图像集;第二,提出了一个局部多核度量学习算法。因为我们的方法它考虑并利用了图像集的多个不同阶的统计量,因此,它能够提取更多的鉴别信息。我们的算法在现有的公开数据库上进行图像集分类时能够取得先进的性能。尽管在分类、聚类、迁移学习、维度缩减等方面已经取得了不少的成绩,但是在使用多核学习方法的度量学习方面却少有进展。最近,wang等人提出了通过在整个空间上学习一个统一权重向量的多核度量学习方法。我们的方法是对这个多核学习方法的补充和完善。
三、提出的算法
图1展示了我们提出算法的流程。对于每个图像集,我们首先提取它的多阶统计量为图像集建模。对于每一阶的统计量,我们计算一个核矩阵去度量两个图像集之间的相似度。然后,结合不同阶的统计量信息提出LMKMLA算法,使用该算法学习一个具有鉴别性、局部的距离度量。最后,使用最近邻分类器进行分类。在随后的几节中将对其进行详细的描述。
1.用多阶统计量对图像集进行建模。假设是一个对象对应的个不同的图像,其中表示第幅图像。图像的像素值用作原始的特征。给定一个图像集,我们提取如下的不同阶的统计量信息作为特征来表示这个图像集。多阶统计量能够可靠的描述一个图像集中图像样本的分布情况,因此,它们可以用作图像集的特征。
一阶统计量:均值向量m展示了一个图像集在高维空间中平均位置。
二阶统计量:
图像集的协方差矩阵表示图像集中每对样本的个体特征之间的相关性。
三阶统计量:
图像集的协方差矩阵和均值的外积构成的三阶张量可以测量协方差矩阵和均值之间的关系。
其中,是一个维的向量,是一个的矩阵,是一个的张量。表示两个矩阵的克罗内克积。对于每个图像集也可以计算出更高阶的统计量。但是,在我们的方法中仅考虑前三阶,因为更高阶统计量特征的计算代价是很高的。
2.相比以前的图像集表示方法,用多阶统计量信息对图像集进行建模有如下优势。
2.1在数据分布上不需要做假设并且对于包含任意多个图像的图像集来说,这些统计量特征都可以计算出来。
2.2不同阶的统计量信息能够从不同的角度表示图像集的特征。例如,均值向量能够粗略的反应对象在高维空间中的位置,协方差矩阵表示对角元素的每个不同特征的变化,它也可以用来测量非对角元素不同特征之间的相关性。因此,那些统计量特征能够为表示一个图像集提供补充信息。
2.3那些统计量特征对轮廓更具鲁棒性,特别是在与基于最近样本对的图像分类方法对比时,因为这些统计量是图像集中全部图像的统计量并且含噪声样本的影响能够被极大的消除。
3.局部多核度量学习。在提取多阶统计量信息后,我们使用最近邻分类器完成分类,在此分类器中涉及两个图像集相似度的计算。鉴于核空间学习取得的巨大成功,我们在核空间比较两个统计量特征。这等价于将原始统计量特征映射到一个新的空间。我们用表示第个统计量特征对应的新特征,映射函数记为,其中是原始特征空间,是映射到的高维空间。尽管通常是隐式的,为了简单起见,我们先将它认为是一个显式的特征向量。通过某些处理,能够通过使用核技巧获得的核值表示出来。
作者简介:李娜(1985—),女,江西南昌人,汉 助教,硕士,九江学院电子商务学院。研究方向:大数据,电子商务。