论文部分内容阅读
随着科学技术的迅猛发展,数据的获取已不再困难,可获取数据越来越多,维度也越来越高,如何从复杂多样的数据中挖掘有用的信息已迫在眉睫。聚类分析是数据分析的有效工具,近年来一直是研究热点。一方面基于数据普遍存在的高维性,在低维空间聚类效果较好的方法在高维空间往往难以获得较好的聚类结果。另一方面先验知识也是提高聚类效果的有利信息。因而寻找适合高维数据的聚类算法和充分利用已有背景知识成为聚类领域的重要课题。本论文针对高维数据的聚类和先验知识的有效运用提出了两种改进算法,主要内容和创新如下:1.针对有约束k-means聚类忽略了样本的局部结构信息,导致聚类结果不是很好,引入了局部结构信息对有约束样本进行标签传播,提出了基于邻域标签传播的有约束k-means聚类(Neighborhood Label Propagation Contrained K-means Clustering, NLPCC)。该算法在一定程度上提高了聚类准确度,并通过实验证实了算法的有效性。2.针对降维和聚类的相互独立性,导致聚类结果不是很好,提出了一种基于邻域嵌入的自适应降维聚类算法LDA-CNPkm。该算法利用基于邻域标签传播的有约束聚类算法进行聚类,然后利用聚类结果进行特征子空间的选择,二者交替进行,直至聚类结果变化很小时结束。该算法在一定程度上提高了聚类准确度,并通过实验证实了算法的有效性。