论文部分内容阅读
近年来,高光谱遥感技术发展迅速,再加上高光谱图像(Hyperspectral Image,简称为HSI)本身可以提供地物的详细覆盖信息,研究人员可以从HSI中更加高效的提取出地物的光谱信息,辐射能量以及空间信息。但是HSI包含了丰富的空间信息和光谱信息,这导致它会有成百上千的维数,很容易造成维度灾难,所以其实对它进行聚类是比较困难的。现目前,我们可以将HSI聚类大致分为四种方法:1)基于质心的方法;2)基于密度的方法;3)基于生物学的方法;4)基于谱聚类的方法。其中谱聚类法较为流行且效果良好,而稀疏子空间聚类(Sparse Subspace Clustering,下面简称为SSC)就是众多谱聚类算法中的一种。SSC算法虽然可以对带噪声的数据进行处理,但是直接利用这种算法进行聚类也有它的局限。基于此,针对SSC算法未利用HSI的空间特征信息引入了流形正则项,在确保利用了 HSI的光谱信息的情况下,更好的获取了 HSI的空间特征;针对SSC算法未利用先验知识引入了半监督学习方法“高斯域和调和函数”(GFHF),同时利用类概率,用己知标签求取未知标签的类概率初始值代替GFHF中的标签二值矩阵。论文在基于SSC算法的基础上,做了以下改进:1)论文提出了一种新的算法,它叫做Laplacian regularized Sparse Subspace Clustering(LapSSC),它增加了以拉普拉斯图为特征的新的流形正则项来反映局部流形结构。因为流形正则项可以捕捉数据点的局部几何结构。所以这种流形正则项的加入,在确保利用到了HSI的整体空间结构的情况下,同时也将HSI的局部空间几何结构利用了起来。在原有算法的优越性能下,进一步有了提高。2)利用著名的半监督学习方法GFHF,将少量的监督信息通过GFHF传播到未标记的数据。但是这存在一个问题,在进行GFHF半监督学习之前,不知道未标记数据点属于每个类的概率,通常的方法是将未标记数据点的初始标签全表示为零,这在一定的范围内限制了聚类精度。因此论文提出了一种新的半监督稀疏子空间聚类框架,叫做Semi-supervised Subspace Clustering for SSC via Class Probability(CPS4C)。论文利用监督信息,通过类概率传播的方法对未标记数据属于哪个子空间进行一个初始的类概率判断,这在很大程度上优化了半监督学习的初始数据,提高了聚类精度。最后,本论文针对提出的不同的聚类方法,在几个知名的HSI数据集上做了一系列实验,数据集分别为Pavia University,Pavia Centre,Salinas。实验结果进一步证明了改进方法的有效性。