论文部分内容阅读
聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。目前,文献中存在大量的聚类算法,但是每一种单一的聚类算法都存在各种不同的问题,很难满足实际问题的需要。为了提高聚类算法的性能,近年来人们开始将集成技术应用到聚类方法中的研究工作,并且提出了一些聚类集成算法。聚类集成作为一个迅速发展的新领域,已成为集成学习中一个重要的研究方向。本文对基于层次聚类的簇集成方法及聚类的有效性进行了研究。主要内容包括以下三个方面:第一在成对聚类集成方法(GPCE)基础上,研究了层次聚类的簇集成方法(HCCE),给出了基于层次聚类的簇集成算法框架。实验中,为了研究层次聚类中的三种距离度量方法,即单连接法、全连接法和平均连接法所对应的不同聚类融合方法的性能,使用了数据的分类信息Micro-precision对聚类集成的结果进行了评价。第二将稳定性指数引入到GPCE方法中,提出了改进的簇集成方法(HCICE),并研究了聚类的有效性,实验证明了用它能选择出较好的簇数,进而得到比较好的划分。为了体现HCICE方法优于GPCE方法和单个聚类方法,使用了ARI(Adjusted Rand Index)和Jaccard Index等两种评价指标对聚类结果进行了评价;最后,研究并讨论了聚类正确率和集成规模、簇的个数之间的关系。第三在选择性集成的基础上,提出了基于贪心选择的簇集成方法(GSICE),同时也提出了一种新的目标函数即Joint Criterion。首先利用HCICE算法得到L个聚类结果(划分),不用进行集成;然后利用基于Joint Criterion的贪心选择策略进行选择,得到K个聚类结果(划分);最后再对K个聚类结果(划分)进行集成。为了体现聚类集成选择的性能,实验中对该算法进行了研究,并与之前使用全部的聚类结果(划分)进行集成做了比较研究;同时分别使用ARI(Adjusted Rand Index)和Jaccard Index等两种评价标准对其结果进行了评价。