论文部分内容阅读
随着信息技术、数据收集和存储技术的不断发展,数据规模逐渐扩大、维度逐渐增高,传统聚类算法受高维数据稀疏性和维度灾难的影响无法进行有效聚类,为解决高维数据聚类问题,软子空间聚类分析技术应运而生并得到广泛关注。软子空间聚类通过描述各样本隶属于不同簇的不确定性进行聚类,具有更好的适应性和灵活性、更接近于客观世界。但现有软子空间聚类算法主要存在以下两方面不足:采用随机选取样本点的方法初始化聚类中心,导致算法的聚类精度和稳定性依赖于初始簇心;采用的局部搜索策略,导致算法在聚类过程中易陷入局部最优。本文针对上述问题进行深入研究,具体研究内容如下:(1)针对聚类结果依赖于初始簇心的问题,本文对快速搜索算法(CFSFDP)进行优化,通过引入投影分区和类合并技术,提出一种基于投影分区及类合并技术优化算法(PM-CFSFDP),可以获得更加精准的类中心点。将PM-CFSFDP作为初始化步骤应用于软子空间聚类中,为其选择最佳聚类中心,降低算法对初始簇心的依赖。(2)针对在聚类过程中易陷入局部最优的问题,本文对花朵授粉算法(FPA)进行优化,通过引入混合蛙跳思想和自适应高斯变异策略,提出一种基于自适应高斯变异的混合蛙跳花朵授粉算法(AGM-SFLFPA),可有效避免陷入局部最优且收敛速度较快。将AGM-SFLFPA作为全局优化搜索策略应用于软子空间聚类中,为其搜索最优权值,有效避免陷入局部最优。(3)将两个改进的算法PM-CFSFDP和AGM-SFLFPA引入软子空间中,提出一种基于花朵授粉算法的软子空间聚类算法(FPASC)。在UCI标准数据集上的实验结果表明,在处理高维数据时,FPASC算法可降低对初始簇心的依赖,避免在搜索过程中陷入局部最优,有效提高了软子空间算法的聚类精度和稳定性。