论文部分内容阅读
主成分分析技术(Principal Component Analysis,PCA)已被广泛地应用到数据描述、图像去噪和降维等领域。在过去的几十年里,取得长足的进展。随着信息采集技术的迅速发展,人们在各个领域获取的数据维数越来越高,且不可避免的含有噪声或者遮挡(Outliers),导致这些数据远离数据真实分布。由于PCA采用欧氏距离平方度量数据之间的相似度,过分强调分布比较远的数据,导致利用PCA分析这类数据时,性能退化很明显,鲁棒性很差。针对这个问题很多鲁棒描述方法被提出,其中,基于鲁棒度量的低维描述PCA和低秩描述PCA是两个主要的研究方向。鲁棒低维描述PCA以特征提取为目的,采用更换距离度量准则的手段提高鲁棒性,但是忽略了方差和重构误差之间的线性关系,导致低维描述不够准确,而且大多数方法鲁棒性和旋转不变性不能同时保持;低秩描述PCA以去噪为目的,采用直推式学习方法,但是难以直接处理训练样本集以外的样本,很大程度上限制了其使用范围。针对以上问题,本文对鲁棒PCA的两个主要研究方向进行深入研究。概括如下:1.针对鲁棒度量PCA鲁棒性和旋转不变性不能同时保持,本文提出了基于?2,范数的PCA(L2p-PCA),它是基于?2范数的PCA的推广,L2p-PCA既保持了旋转不变性同时提高了鲁棒性;此外针对现有鲁棒度量PCA算法的第二个缺点:最小化重构误差和最大化方差的约束不能被同时满足,所获得的低维投影缺少重构误差或方差约束的信息,导致低维描述不够准确。本文将重构误差和低维描述的关系嵌入到目标函数中,提出角度PCA模型(Angle PCA),不仅提高了算法对Outlier的鲁棒性,具有旋转不变性,而且解同时满足最小化重构误差和最大化方差两个约束。实验结果表明,本文提出的算法显著性提高了一维PCA的鲁棒性。2.上述方法在应用到图像时,需要将图像矩阵转换成向量处理,这样会丢失数据的空间结构信息,而现有的二维鲁棒度量PCA采用基于范数平方下的最优均值来中心化样本,而并非当前鲁棒度量下的最优均值,导致中心化不准确,鲁棒性受影响,针对这些问题,本文提出基于最优均值的范数二维主成分分析(OMF-2DPCA),利用范数作为距离度量,并计算范数下的最优均值,提高鲁棒性同时保持旋转不变性;此外本文将上一章提出的鲁棒低维描述模型进行推广,提出基于最优均值的?2,1范数二维主成分分析(OM L21-2DPCA),以及基于最优均值的角度二维主成分分析(OM Angle 2DPCA)。与已有的鲁棒度量二维主成分分析相比,所提算法采用鲁棒的距离度量范数而且采用最优均值来中心化样本,提高了算法的抗噪性能,多个有噪声的人脸数据库上实验结果表明,本文提出的算法显著提高了二维PCA的鲁棒性。3.针对低秩描述鲁棒主成分分析(Robust Principal Component Analysis,RPCA)无法处理训练样本集以外的样本,本文提出了新的鲁棒低秩描述模型,即双鲁棒主成分分析(DRPCA),分别对低秩稀疏分解获得的干净样本,以及干净样本与原始数据的线性投影进行低秩约束,这样不仅可以增强训练样本集中的去噪效果,而且学习到的线性投影也可以对训练集以外的新样本进行去噪,相比于现有的低秩RPCA,本文提出的方法将利用重构误差获取的数据内在几何结构自适应地嵌入到RPCA模型中,使得获取的低秩描述较好保持了数据的内在几何结构。最后,通过一系列去噪、提取前景和聚类等任务的实验证明本文提出方案的优越性。4.以上工作针对PCA的低维描述和低秩描述进行了深入的研究,鲁棒低维描述PCA只考虑提取鲁棒特征,但不能去除噪声;低秩描述RPCA虽然可以去除图像中的遮挡或噪声,但不能对数据进行鲁棒特征提取,因此不能处理训练集以外的样本。针对这些问题,本文将低秩描述的RPCA和低维描述的PCA相结合,提出了集成低维-低秩的鲁棒PCA,即增强鲁棒主成分分析(ERPCA),同现有的方法相比,ERPCA既能够有效的在图像处理前消除图像数据中的遮挡与噪声,提高模型的鲁棒性,也可以对训练集样本及训练集以外的测试样本进行鲁棒降维。最后本文在真实数据集上进行了实验测试,实验结果证明了提出的算法的正确性与有效性。本文从鲁棒主成分分析的低维描述和低秩描述两个类别出发,针对图像的鲁棒分类、去噪、聚类、背景提取等多个实际应用,逐渐深入,解决挑战性难题。