论文部分内容阅读
信息时代,各行各业都产生了海量规模的数据样本,并往往伴随着极高的维度。这些数据本身来源复杂,结构各异,类型繁多,而其中有价值的信息通常又隐藏在大量的不相关信息中。这些特点给其处理和解析带来了很多困难。数据降维是解决上述问题的一个有效途径。把机器学习方法应用于数据降维,让机器自主发现数据中的内在联系,能够极大减少人工成本,是数据降维方法的一个研究热点。经过数十年的努力,基于机器学习的降维方法成绩斐然,但仍然有很多局限需要克服,比如对数据本身的内在信息利用不充分,对数据流形描述不够准确,有些方法不能自主控制降维维度等。为此,在前人的工作基础上,本文有针对性地提出了一些改进和扩展,以克服现有模型的局限性。主要工作如下: (1)针对现有无监督方法不能同时充分挖掘数据的判别信息和流形信息,降维后数据质量不够高导致的聚类分类不够准确的问题,本文使用核方法得到数据的全局判别模型,把流形学习技术融入判别模型中,结合回归学习和l2,1-范数构建了一个基于核判别分析和回归学习的无监督特征选择模型(KFDRL),使降维后的数据集充分保留原始数据的内在信息。实验结果表明KFDRL得到的数据集能够实现更好的聚类和分类效果。 (2)针对核方法处理非线性数据时相对较高的计算复杂度,以及无监督算法不能充分利用数据先验信息的局限,本文提出了一个基于秩正则和标签约束的非负矩阵分解方法( NMFRC)来解决上述问题。为了更好地描述数据流形, NMFRC还使用测地距离来度量数据相似性。结合秩约束方法,NMFRC在保留数据稀疏性的基础上没有破坏流形的平滑性。NMFRC把部分标签信息加入模型中,使算法成为半监督的。在半监督对比算法实验中,NMFRC得到的数据集聚类效果更好。 (3)相比KFDRL等特征选择方法,NMFRC等基于局部思想的非负矩阵分解类方法不能自由选择降维维度,不能充分利用数据的自表示性和相似性,为此本文提出了一个新的非负矩阵分解框架下的自表示特征选择方法(SRFS-NMF),在非负矩阵分解框架中加入自表示方法得到低维拟合的回归模型,并结合范数约束进行特征选择,既利用了基于局部的思想和数据的自表示特性,又实现了特征个数的自由选择。对比实验表明,SRFS-NMF比非负矩阵分解类方法和基于范数正则的特征选择方法得到的数据集的聚类效果都更好。