论文部分内容阅读
在大数据时代,高维数据的处理和表示是数据科学领域一项重要的研究内容,通过对高维数据本征分布的建模,提取其中有效特征,继而进行数据挖掘任务是一般数据分析方法的基本过程,而在刻画高维数据时,由于数据的稀疏性以及欧式度量下数据点之间相似性小,使得传统的处理低维数据的数据挖掘方法存在较多误差。因此,通常使用复杂的模型逼近高维数据集以提取更为准确的内蕴信息,而后基于此信息构造数据点之间的关系,通过对该关系的处理和重构实现最终的数据挖掘目标。稀疏子空间表示是在压缩感知的框架下,对高维数据集做子空间逼近表示,从而获取高维数据集内蕴子空间信息的一种常用方法。稀疏子空间聚类是在稀疏子空间表示的基础上,将数据的稀疏表示矩阵做成可表示数据集结构的无向图,最后应用谱图分割来求解数据所属类的高维数据聚类方法,近年来,因其在处理高维数据时强大的性能而备受关注,稀疏子空间聚类(SSC)和低秩表示(LRR)被广泛的应用于模式识别、计算机视觉和信号处理领域,这两类方法都是通过逼近数据集的全局线性表示,构造块结构的稀疏系数矩阵,进而得到数据的聚类结果。然而,在真实情况下,较少的数据集满足这种线性子空间假设,多数的数据集呈多流形分布,这就使得该聚类方法会因数据集的表示误差而产生大量的样本错分。本课题在稀疏表示的框架下,研究了呈多流形分布的数据聚类算法,主要工作体现在以下两点。首先,本课题结合流形的局部线性嵌入表示,在重构数据嵌入空间的同时利用F范数构造的低秩约束来逼近其特征向量的子空间结构,建立了低秩局部嵌入表示模型(LRLER)。在此模型中,数据的多流形结构在嵌入空间内转化为多子空间结构,而对嵌入空间的子空间逼近,既刻画了数据的局部非线性流形特征,又表现了数据的子流形间的关系,使得数据的稀疏表示矩阵能更好的反应数据的本征分布从而构建更合理的数据图,以实现多数数据集上更为准确的聚类。通过在合成数据集和真实数据集上大量的对比试验,验证了本课题所提出的低秩局部嵌入表示子空间聚类方法较与经典的子空间聚类方法的优越性能,并通过实验对算法中的参数进行了分析,给出了一种经验参数选择策略。其次,在低秩局部嵌入表示的基础上本课题又考虑了多流形数据集流形交叠所导致的邻域混杂问题,建立了基于局部切空间矫正权的低秩局部嵌入模型(NA-LRLER)。邻域混杂问题主要是因为在建模数据的局部流形结构时,缺乏对近邻点所属子流形类信息的刻画,直接以数据点之间的距离为度量来选取用以数据表示局部信息的近邻集。而邻域混杂通常会使得某一点的局部关系建模中含有来自属于异类近邻点的干扰,进而影响对数据集的表示。本课题结合局部切空间的结构特性,利用混杂邻域内各点处切空间夹角描述近邻点的类信息,构建邻域矫正权优化问题,以实现与数据点同类的近邻权小而异类的近邻权大,然后通过数学推导和证明,给出该优化问题的解,并利用广义余弦度量刻画了局部切空间夹角权,最后将矫正权用于低秩局部嵌入表示模型上,在合成数据集下和真实数据集下进行了大量的对比试验,分析了混杂邻域的系数矩阵变化情况以及比较了矫正后算法和原始算法的聚类精度,并给做了局部切空间矫正权模型中的参数分析。