论文部分内容阅读
稀疏和低秩问题是近年来在图像理解领域中研究的热点,它符合人类感知系统中的稀疏编码策略,能够捕捉到数据内在的特性,因此得到了众多研究者的关注。本文围绕这两个方向,针对其在图像理解领域中出现的一些问题,对当前方法提出了一些改进措施。本文的主要的创新点如下:1)针对BoW模型中所存在的一些问题提出了一种解决办法。在该模型的码书构建过程中,由于没有对噪声加以区分,导致了形成的码书在一定程度上包含有噪声;并且由于采用了无监督的聚类的方式,使得形成的码书并不具备类间的区分性。针对这些问题,我们利用稀疏表示寻找码书中那些比较重要且具备类间区分性的码字。由于稀疏表示自身具备有特征选择的功能,可以寻找出那些与待表示样本处于同一子空间的样本,因此可以被用来作码字的选择。通过对一类的样本的稀疏表示,我们学习出一个可用作对码字进行加权的指示变量,并将其用来对测试图像的特征向量进行加权处理。最后,通过在三个广泛应用的数据库上的实验,验证了这个方法可以增强BoW模型的类间区分性,提高模型在图像分类问题上的性能。2)提出了一种新的带有类约束的稀疏表示。传统的稀疏表示是种基于整组基的表示方法,它并不区分基中信号的来源,因此基信号的类别信息没有得到充分的利用。在本章中,我们假设,相比于使用整个基中所有的信号,待表示的信号能够被从属于本类的信号更好的表示,基于此,我们在稀疏表示中加入了对基的类别的约束。将整个问题用数学公式描述之后,是一个凸优化问题,我们逐类采用坐标梯度下降并同时保持解稀疏的方法去解优化。最后我们在三个不同类型的数据库上面验证了提出模型的性能。3)围绕基于属性的物体类别预测这一问题做了一些研究。属性作为一种新定义的中间层特征,在一定程度上沟通了底层视觉特征和上层的物体类别,对于图像的类别预测起到了一定的促进作用。但是,属性标签总是充满着噪声,它们或者来自于人工标定的失误又或者是预测过程中出现的偏差。针对这一问题,我们在模型中引入了l2.1范数的约束,使得模型对于噪声更加的稳定,同时也能适当的选取出那些更有价值的属性。模型确定之后,我们使用非常简单的拉格朗日乘子法解决了这一问题。除此之外,针对一幅图像通常包含有多个属性标签这一现实情况,我们还使用了多标签学习的方法——结构SVM,它将通常的具有单一变数的标量变量修改为具有多个变数的矢量变量,并且采用了cutting plane的方法解决了这一问题。在实验部分,我们在a-PASCAL, a-Yahoo以及AWA三个标准数据库中进行了一系列的实验,通过与一些常用算法的比较,证明了我们提出方法的有效性和鲁棒性。4)通过利用物体之间的共有信息提出了一种联合检测的方法。该方法可以在多幅图像上同时的进行联合检测。在该方法中,我们首先会依靠弱检测器建立一个初始的候选边界框池并抽取多种特征,然后我们在上面进行多个线性重建,目标是得到一个在多特征中共享的可以表征物体间共有信息的系数矩阵。这个问题被抽象为一个有着低秩约束以及噪声和离群点去除需求的线性重构问题。低秩的约束保证了求得的系数矩阵能够在全局上以及多特征空间中反映物体与物体之间的相互依赖关系,噪声和离群点的移除则保证了能够将误检物体从检测结果中去除。最后,在几个标准库上的实验结果也表明了我们提出的方法要优于现有的方法。