论文部分内容阅读
随着信息化技术的不断发展,在大量的科学研究中,有时会遇到具有高维特性的数据集,数据的高维特性为获取数据内在规律和结构带来了很大的困难。因此,需要采用适当的数据约简方法对这些数据集进行约简处理。数据约简也被称为维数约简或数据降维,现有的降维方法对于不同的数据集具有不同的处理效果。从数据所呈现的结构出发,基于流形学习的数据约简方法可以分为两大类:线性方法和非线性方法。线性降维方法可以对具有线性结构的数据集或者高斯数据集进行有效的处理,非线性降维方法可以对嵌入在高维空间中的数据进行投影,将其映射到低维空间坐标中,从而可以进一步探索数据的内在几何结构。流形学习将样本集内的数据几何信息通过运用数据分析技术呈现出来,即将高维复杂的数据用简洁的低维结构来表示。流形学习的主要目的是寻求嵌入在高维空间中数据的内在分布规律,目前已成为机器学习等相关领域的研究热点。本文通过对基于流形学习的数据约简方法进行一定程度的研究,分别从邻域参数的选择、新增数据点的处理方面对流形学习方法进行了研究和详细的阐述,将改进后的方法有效的应用在文本聚类中,并通过实验验证了方法的有效性和可行性。主要工作总结如下:1.提出了一种判别邻域参数选择合适性的方法。方法采用核主成分分析方法对数据误差进行重构,然后对重构后的数据误差进行聚类,根据聚类的个数判断邻域选择的合适性。之所以采用核主成分分析方法是因为它属于非线性方法,是在主成分分析的基础上产生的,它采用核函数来代替数据向量内积,同时具有主成分分析方法的特性。利用非线性函数把原始数据映射到高维特征空间中进行处理,需要进行内积计算,通过计算原始数据的核函数来代替内积计算,那么相应的计算量就会大大减小。在对误差进行聚类效果的评价方面,采用AIC信息准则对聚类个数进行判断。当数据误差被聚为一类时,则说明所选的邻域参数没有引起误差结构的变化,此时邻域值是合适的;当数据误差的聚类的个数多于一类时,则说明所选的邻域参数导致误差结构发生了严重的变化,此时邻域值是不合适的。2.探讨了一种新的降维方法。从目前的研究来看,局部切空间排列方法使用比较少,经过分析可知,之所以研究较少是因为该方法在某些情况下存在一些缺陷。比如,在处理样本较大的数据集的时候会出现数据内在结构扭曲或者不完整现象,由此可知局部切空间排列方法对于新增数据样本点的处理并不是很理想。优化的线性判别方法是一种线性降维方法,是将原始线性判别方法中的Fisher准则进行优化,使方法执行起来更加方便。文中将优化的线性判别方法与局部切空间排列方法相结合,利用经过优化的Fisher准则对类内和类间投影矩阵进行求解变形,最后得到数据的最优投影矩阵。通过两种方法的结合,可以有效的对新增数据点进行处理。3.探讨了基于流形学习的降维方法在文本聚类中的应用。一般情况下,对文本信息的获得是通过将文本中出现的词条信息频率构造成相应的矩阵,这些矩阵呈现高维特性。若想进一步探究文本数据的内在规律,就需要运用适当的降维方法,近年来数据约简技术已经逐步被应用在文本聚类中。文中运用基于优化线性判别的局部切空间排列方法对高维文本数据信息进行降维处理,将低维空间中的局部坐标对齐,进而表示出全局坐标,获取数据的局部邻域和局部切空间向量坐标,通过使局部误差最小化来对齐局部和全局切空间向量坐标。为了得到良好的可视化效果,用k均值方法对处理后的数据进行聚类分析,同时使用熵值对聚类质量进行评价。