论文部分内容阅读
随着数据采集技术、通信技术和网络技术的迅速发展,人们在实际获取的数据维数越来越高,如何有效的描述高维数据,实现数据分析,如聚类已成为一个热点研究方向。论文借助流形学习的思想对数据进行约简处理,将高维数据映射到维结构空间,然后在低维空间实现数据聚类。论文的主要内容和创新如下:1.针对LPP算法不能有效的保留数据间的多样性信息,受启发于PCA和流形学习,利用邻接图描述数据的内在几何结构,较好的刻画了数据的相似几何属性和多样性几何属性,给出了分别度量相似性和多样性的离散度矩阵,提出了一种基于最小化相似离散度和最大化多样性离散度的准则的聚类算法(LocalSimilarity and Diversity Preserving Projection Clustering, LSDPC),该算法首先对数据进行降维,然后在投影空间中,使用k-means算法对数据聚类,和传统的聚类算法相比,LSDPC克服了数据维数的影响,且能够得到能有效的代表高维数据的低维表示,实验验证了该算法的有效性。2.基于半监督的聚类算法只适合于低维数据,导致实际效果不好,提出一种基于判别分析的半监督聚类算法(Local Discriminant EmbeddingSemi-supervision Clustering)LDESC来解决高维数据的聚类问题。该算法首先构造两个邻接图,同类局部邻接图和不同类类间邻接图,其中同类局部邻接图主要包括描述同类局部相似几何信息和同类局部多样性几何属性的邻接图,然后给出了分别度量同类局部信息和不同类判别信息的离散度矩阵,最后建立一个特征提取准则,实验验证了所提供算法的有效性。