论文部分内容阅读
在数据挖掘领域,聚类分析作为一种重要的方法,能够发现数据对象自然的分布结构。通过一种事先给定的相似性测度方式,所有的数据对象被分割成若干不连续的组,并保证同一组数据的相似性更大,不同组数据的相似性更小。传统的聚类算法是一种无监督方法,它按照不同的优化准则对数据进行分割,没有考虑用户或真实世界提供的任何先验知识。尽管目前许多新型或改进的算法被提出,但仍然难以找到一种单一的算法可以探索各种数据对象分布结构。为了提高无监督聚类算法的性能,聚类集成技术和半监督聚类技术应运而生。受分类集成技术的启示,聚类集成作为当今的研究热点已被证明能有效地提高传统聚类算法的性能。它综合多种不同聚类算法或不同初始参数的同一聚类算法产生的划分,可获得比单一聚类算法更好的聚类结果。共识函数的设计是聚类集成最关键的问题,也是目前研究的重点。本文提出一种基于自组织特征映射(SOM)的聚类集成算法。该算法首先利用多个具有差异性的聚类成员,将原始数据集转换成一个新的特征空间矩阵,然后计算各个聚类成员的聚类综合质量,并将其作为新特征空间矩阵的属性权重,最后利用SOM神经网络进行集成,产生最终的共识聚类结果。实验结果表明,与集成前的基聚类算法和其他聚类集成算法的结果相比较,该算法能够有效提高聚类质量。半监督聚类利用诸如种子集或成对约束等先验知识获得更好的聚类结果。相比于无监督聚类分析,半监督聚类利用提供的少量监督信息协助指导聚类过程。成对约束是先验知识中最普遍的,目前许多半监督聚类算法都基于此类约束形式。本文对基于成对约束的Cop-Kmeans算法进行了详细地介绍,并提出了一种改进的Cop-Kmeans算法,用以解决Cop-Kmeans算法的约束违反问题。针对目前许多半监督聚类算法对数据样本分配顺序的敏感性,给出了一种根据样本确定度的大小产生样本分配顺序的方法。另外,本文将成对约束融入SOM算法,给出了一种基于成对约束的半监督SOM算法,并将其作为共识函数尝试对多个半监督聚类划分结果进行集成。最后,通过实验验证上述方法的有效性。