论文部分内容阅读
模糊C-均值(FCM)聚类集成算法是一种利用集成思想提高聚类质量的方法。针对FCM聚类集成算法随着数据量的增加时间复杂度过高的问题,提出一种基于MapReduce框架的并行FCM聚类集成算法。首先利用多组随机的初始聚类中心分别进行聚类来获取具有差异化的聚类成员;然后通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,统一所有聚类成员中的簇标记;最后利用投票法共享聚类成员中数据对象的聚类情况得出最终的聚类结果。实验结果表明,该算法具有良好的精确度、加速比和扩展性,具有处理较大规模数据集的能力。