论文部分内容阅读
目前人类社会日益深入到信息时代,在进行科学研究的过程中,不可避免地会遇到大量的高维数据,如全球气候模型、人类基因分布、文本聚类和文本分类中的词频等,所以经常会面临维数约减的问题, 维数约减的目的是找出隐藏在高维数据中的低维结构。对维数约减的研究是机器学习的重要主题,维数约减较中肯地把握了人类的归纳学习和抽象思维过程的形式特征。维数约减算法大致可以分为两类,一类是线性的方法:如主成分分析法(PCA)和经典多维尺度算法(CMDS),另一类是非线性的方法:如等距映射法(Isomap)、局域线性嵌入法(LLE)和自组织等距嵌入法(SIE)等。本文首先对几种维数约减算法进行了研究和分析。经典的维数约减算法,如PCA和CMDS,实现简单,可以确保发现处于高维向量空间的线性子空间上的数据集的真实几何结构。但是这类算法的线性本质使其无法揭示复杂的非线性流形。为此,许多非线性维数约减算法相继提出。Isomap是一种全局优化算法,该算法建立在经典多维尺度算法 CMDS基础之上,试图保持数据间内在的几何特性,即保持数据点之间的测地线距离;LLE是一种无监督的学习算法,揭示非线性流形的全局结构。LLE使用一种局域对称和线性重构的方法,将输入空间的点集映射为一个单一低维的全局坐标系,并保持点的邻域关系。SIE则是基于一种几何的观点:一个全局等距的嵌入必然是局域等距的,同样,适当选定一组局域等距约束条件,可以蕴含全局等距;SIE利用点集的距离分布作为等距约束条件,通过适当选取保持局域距离分布的局域等距映象,在概率意义上强迫出全局等距嵌入映象。为了客观评价各种非线性维数约减算法的重构质量,本文采用仿真数据和真实数据分别用各种维数约减算法进行重构。本文将非线性维数约减的方法引入文本分类,并验证了基于非线性维数约减的文本分类的可用性。仿真实验表明,对于无噪数据集,Isomap和SIE重构质量近似,优于LLE;对于含噪数据集,LLE和Isomap这样的全局非线性嵌入算法,由于噪声导致的伪自由度在整体上扭曲<WP=4>重构流形,导致重构质量的严重下降,而SIE可以有效屏蔽少数噪声点对于重构质量的影响,保持近似优化的重构质量;对于真实数据,对于不同的应用,各个算法的重构质量有很大差异。