论文部分内容阅读
数据聚类是重要的数据挖掘技术,聚类技术将末标记对象通过其相似度进行分组,使得组内对象的相似度最大而组问对象的相似度最小,从而发现对象的内在特性。然而,一些数据的结构和分布呈现高度的复杂性,数据挖掘也为聚类带来了大量亟待解决的问题。为此,聚类分析值得进一步探索的空间还很大。 群体智能是智能信息科学领域最有生命活力的一个研究方向,其具有分布性、鲁棒性、非直接通信和简单性等特点,在解决组合优化问题、知识发现、通信网络、机器人等研究领域显示出了巨大的优势和潜力。 蚁群算法是群体智能算法的重要内容之一。根据蚂蚁群体在不同方面的行为特征,蚁群算法分为受蚂蚁觅食行为启发的模型、受孵化分类启发的模型。本文重点研究了蚁群算法在数据聚类方面所做的贡献,针对传统的聚类算法效果不理想,基本蚁群聚类算法收敛速度慢等缺陷。本文提出了一种动态调整的蚁群聚类算法和改进的基于蚁群优化的聚类算法,动态调整的蚁群聚类算法通过参数的自适应调整,提高算法的自适应性和性能;改进的基于蚁群优化的聚类算法将两种不同的蚁群聚类算法进行结合,对初次聚类结果进行二次优化,提高算法性能。此外,动态调整的蚁群聚类算法使用了相对的聚类有效性分析方法,不仅可以发现数据集的最佳聚类数目,减少孤立点的数目,而且可以实现关键参数的自适应调整,提高聚类效果。 集成学习技术是利用基本学习器的多个版本来解决同一个问题,这样可以显著地提高学习系统的泛化能力。聚类集成的目的是融合来自多个聚类算法的结果以得到更高质量和鲁棒性的聚类结果。聚类集成的研究主要集中在聚类分量的生成和共识函数的设计两个方面,许多学者做了很多的研究,提出了基于共联矩阵法的聚类集成、基于超图的聚类集成、基于投票法的聚类集成等方法。本文在这些工作的基础上进行研究,并结合蚁群聚类算法,提出了基于超图的蚁群聚类集成算法和基于Bagging的蚁群聚类集成算法。前者使用动态调整的蚁群聚类算法生成聚类分量,后者使用基于蚁群优化的聚类算法生成聚类分量。实验表明,将蚁群算法解决聚类问题所固有的优势和集成学习解决聚类所特有的泛化能力结合,不仅提高聚类分量性能,而且提高聚类集成性能。