论文部分内容阅读
信息技术和数据存储技术的进步使大容量的高维数据获取成为可能。在金融分析、基因组学、传感器、网页文档以及卫星图像等领域出现了大量的高维数据,为了从中挖掘感兴趣的知识,聚类分析是一种重要的技术手段。然而,受“维灾难”效应的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。因此,对高维数据聚类分析方法的研究有着重要的理论意义和实际的应用价值,它已成为聚类分析研究的一个重要方向,是聚类分析方法研究的难点所在。解决高维聚类问题的一个重要方法是通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理,从而保证低维数据处理方法的有效性。维数约减技术是进行数据降维的重要手段。传统的聚类方法已经比较成功地解决了低维数据的聚类问题,其中,划分聚类方法由于其快速性和简单性得到了广泛的应用,它主要包括K均值聚类(K-means,KM)算法、模糊c均值聚类(Fuzzyc-means,FCM)算法及K调和均值聚类(K-harmonic Means,KHM)算法,其中,KHM算法由于对初值弱敏感而具有更好的稳定性。然而,划分聚类算法普遍存在的噪声及初值敏感、簇个数需要预先确定及易于陷入局部最优等固有的缺点也导致它们在处理高维数据时性能急剧下降。针对高维数据聚类问题,本文首先在快速关联过滤(Fast Correlated-BasedFilter,FCBF)及ReliefF特征选择算法的基础上,提出了一种两阶段组合式特征选择算法(ReliefF-FCBF,RF);在此基础上,为了解决划分聚类算法本身固有的问题,以KHM聚类算法为研究对象,对基于KHM的自动聚类分析方法进行了深入研究,提出了一些有效的自动聚类算法,并将它们应用于基因表达数据的分析。本文的主要工作及创新如下:(1)提出了一种基于过滤的两阶段组合式特征选择算法(ReliefF-FCBF,RF)。在对高维数据进行聚类分析之前,RF特征选择算法能够对数据进行有效的预处理,以去除高维数据中存在的噪声、冗余及不相关特征,最终达到对高维数据降维的目的。在经RF算法处理过的UCI机器学习数据集和基因表达数据集上的实验证实RF方法能够发现较小的有区分力的最优特征子集,并保证划分聚类算法应用于高维数据上的有效性。(2)提出了一种基于聚类有效性指标的KHM自动聚类方法,(AutomaticKHM,AKHM),在此基础上,提出了基于模糊验证指标PBMF的自动聚类算法(PBMF-Based AKHM)。该算法能够较好地解决KHM聚类算法需要预先确定簇个数的问题。在经RF算法处理过的UCI机器学习数据集和基因表达数据集上的实验证实在绝大多数情况下PBMF-Based AKHM算法能够准确地发现数据集中固有的簇。(3)提出了基于AKHM与PSO混合的元启发自动聚类方法,在此基础上,提出了两种自动聚类算法PSOAKHM与DAPSOAKHM。它们较好地解决了AKHM聚类算法易于陷入局部最优的问题。在经RF算法处理过的UCI机器学习数据集和基因表达数据集上的实验证实自动聚类算法PSOAKHM与DAPSOAKHM能够找到问题的全局近似最优解,在多类数据集上它们表现出更好的性能和健壮性。(4)提出了一种基于和声搜索(Harmony Search)与KHM混合的元启发自动聚类方法,在此基础上,提出了一种全局动态自适应和声搜索自动聚类算法(Global DynamicAdaptive Clustering HSKHM,GDACHSKHM)。该算法将HS算法扩展到基因表达数据的分析中,从而丰富了HS算法的实际应用领域。HS算法是比PSO更新的元启发算法,具有许多优点。GDACHSKHM算法通过HS组件本身自动地发现数据中固有的簇数目,并自适应地找到问题的全局近似最优解,而无需手动调整参数。在经过RF算法处理过的UCI机器学习数据集和基因表达数据集上的实验证实自动聚类算法GDACHSKHM的有效性,它在某些数据集上具有比自动聚类算法PSOAKHM与DAPSOAKHM更好的性能和健壮性。本文针对高维数据聚类问题,开展了以KHM算法为核心的自动聚类方法研究及在基因表达数据分析上的应用研究,取得的研究成果证实本文的研究工作具有一定的理论意义和实际的应用价值。