论文部分内容阅读
聚类分析是一种重要的数据挖掘工具,在传统意义上,聚类是准确地将数据样本分到不同的类当中,这就是所谓的硬划分。但生活中的多种事物属性都存在着一定的模糊性,也就是说事物之间没有明确的判断依据,无法准确地进行事物的划分与判断,因此模糊聚类就发挥了自己的作用。模糊聚类分析是数据挖掘领域中的一个重要分支,在工程、计算机科学、生命和医学科学、社会科学和经济学等领域得到了广泛的应用。由于模糊聚类中的样本同时属于不同的类别,而且在各个类别的隶属度不同,这种不确定性反映了样本类属的模糊性,更能客观地反映现实世界,因此研究模糊聚类的算法及其应用具有十分重要的价值。Weka是新西兰Waikato大学开发的数据挖掘平台,它为数据挖掘领域研究者提供了多种分类、聚类和关联规则等数据挖掘方法,数据预处理功能,以及算法性能评估的多种方法。作为一个开源平台,Weka具有非常良好的扩展性和兼容性,有良好定义的数据结构和基本的统计接口,为开发者提供了一个非常便利的工具。本文主要从模糊聚类的现有问题中寻找有效措施,提高聚类结果的准确性,算法的稳定性和健壮性,减少人工的干预和对不同领域专业知识的依赖。因此,本文将基于和声搜索和谱分析的模糊聚类算法在Weka平台上实现了封装和应用,丰富该平台的聚类算法组合,扩大其使用范围。本文的工作和创新如下:首先,提出了全局动态自适应和声搜索自动模糊聚类(Global DynamicAdaptive Clustering Harmony Search K-Harmonic Means, GDACHSKHM)算法,它是基于和声搜索与KHM混合的元启发模糊聚类算法。GDACHSKHM利用了和声搜索的全局搜索能力,能够分析数据本身的特点来确定簇的数目而不需要任何先验知识,同时能自适应地找到问题的全局近似最优解。算法运行过程中,参数能够根据每次迭代的结果来更新其值而无需手动调整,减少了人工干预。经过实验证明GDACHSKHM具有良好的聚类效果和健壮性。其次,提出了谱差分进化调和K均值模糊聚类(Spectral DifferentialEvolution KHM,SPDEKHM)算法。该算法分为两步:谱映射和模糊聚类。谱映射实际上是Laplacian矩阵的特征求解过程,它将数据从原来空间映射到低维的解空间,减少了数据维数,让数据集的划分更加明显;映射过程中通过分析Laplacian矩阵的特征值梯度来自动确定簇个数。再利用DEKHM算法将映射空间的节点进行聚类,发挥DE和KHM各自的优点已达到最好的聚类结果。实验证实该算法在大多数的情况下能获得准确率较高的聚类结果。最后,将谱聚类的思想应用到复杂网络的社团结构检测问题中,提出了基于关联矩阵谱映射的自动社团检测(Correlation Spectral MappingAutomatic Community Detection, CSMACD)算法。该算法首先通过关联矩阵的谱映射将社团检测问题转换为聚类问题,再以模块度值为目标函数,通过DEKHM算法来寻找最优的社团数目和相应的网络划分方案。在模拟网络和真实网络上的实验表明CSMACD能够准确地分析结构复杂,社团大小不同的网络社团结构,具有良好的健壮性。