论文部分内容阅读
聚类是数据挖掘领域的一个重要性工具,它根据某种相似性准则将数据对象划分成若干个簇,以发现数据对象内在的分布情况。尽管目前学者提出了许多聚类算法及改进算法,但任何单一聚类算法都无法准确揭示各种数据集所呈现出的簇结构;面对具有各种形状或结构的数据集,寻找符合该数据集的单个聚类算法变得更加困难。聚类集成将不同的聚类算法或同种算法通过使用不同初始参数得到的结果进行合并,以获得比单个聚类算法更加优秀的结果。然而,多数情况下的聚类集成算法是建立在非监督方式之上的聚类集成算法,由于缺乏对先验知识的利用,致使聚类集成的准确性受到影响。考虑将半监督学习与聚类集成方法相结合,可以进一步提高学习性能。传统的聚类集成算法大部分是建立在硬聚类的基础上的,但在现实生活中大多数样本具有模糊性,从聚类集成的一开始便使用硬聚类算法将可能会导致部分有用信息的丢失;同时在聚类集成的过程中,由于基聚类结果的产生也伴随着潜在信息的产生,潜在信息的获取会较好的提高聚类集成的性能和质量。然而多数的聚类集成方法忽视了潜在信息或者潜在信息的获取方式较为复杂,导致聚类集成的结果受到影响。针对此问题,本文提出一种基于链接的模糊聚类集成方法,将数据与簇之间的相关性矩阵转化为表示数据相关性的权重图,通过简洁而有效的方法获取了潜在信息,并利用图划分算法提升最终结果。在半监督聚类集成的研究方面,在集成过程中加入成对约束信息时,不仅考虑约束点与被约束点之间的关系,而且考虑了约束点与被约束点邻域点之间的关系。给出了基于半径和使用高斯分布选取邻域点的两种方式。将数据本身的相关信息与半监督知识相结合,在半监督信息的基础上对先验知识进行扩充,并将扩充后的半监督信息用来指导集成过程,获得了较为理想的实验结果。