论文部分内容阅读
在对类似于专利战略分析系统这种复杂系统的研究中,一个非常棘手的问题就是高维数据的降维问题。决定现实世界演化的背景机制通常是非线性的,传统的线性降维方法(如主成分分析法(PCA))在把高维数据映射到低维空间时,通常不能保留原高维数据的内在非线性结构和特征。因此非线性的方法(如局域线性嵌入(LLE)、等距映射(Isomap)等)应运而生,它们的优点是具有较少的参数需要设置,而且使用非迭代的方法去求解从而可以避免陷入局部极小。本文中我们使用局部线性嵌入(LLE)对高维数据进行降维。主要研究内容包括:
(1)介绍了各种流形的高维数据降维方法以及各自的特点;并对经典的降维算法进行了比较。
(2)重点介绍了局部线性嵌入(LLE)算法原理,对LLE算法的邻域选择进行改进。LLE算法邻域选择采用欧氏距离,都采用全局一致的邻域参数,只适用于均匀分布的流形,无法处理现实中大量存在的非均匀分布流形,有不完善之处。新算法,用每个点的局部邻域估计此邻域内任意点之间的近似测地距离,然后根据近似测地距离与欧氏距离之间的关系动态确定该点的邻域参数,并以此参数构造新的局部邻域。该算法改进了LLE的邻域测度,更适合高维数据的降维。
(3)采用三组标准数据集,从可视化角度,对本文提出的新算法进行实验,分析实验结果。
实验证明,新算法在可视化性能上明显提高。这表明优化邻域结构是一种重要的方向,未来我们可以设计更好的邻域优化算法,改造更多的基于邻域的降维算法。