论文部分内容阅读
聚类技术是一种分组技术,它将物理或抽象对象的集合分组为由同一类对象组成的多个集合,被广泛应用于各个领域,是数据挖掘、模式识别等研究领域的重要研究内容之一,在识别数据的内在结构方面具有极其重要的作用。随着信息产业的发展,数据的属性类型越来越复杂,然而传统的K-means等聚类算法只能处理单一属性数据,K-prototypes聚类算法则能处理混合属性数据,极大地拓展了聚类算法的应用领域,提高了聚类分析的效率。随着大数据时代的到来,传统的聚类方法已无法对大规模的数据进行处理,因此将聚类技术与集群环境相结合,已成为处理海量数据的新趋势,能分析出大量有价值的信息。本文主要的工作内容概括如下:(1)提出一种有效的GK-prototypes聚类算法。在经典的K-prototypes聚类算法的基础上,利用去模糊相似矩阵构造粗粒子集、粒计算和最大最小距离法确定初始聚类中心,并修改了目标函数。实验结果和理论分析表明,GK-prototypes聚类算法与其它基于K-prototypes的改进算法比较,聚类效果更准确,有效性更好,鲁棒性更强。(2)提出了一种面向大数据的MK-prototypcs聚类算法。大数据数据的特征之一便是数据的属性属于混合类型,即包括数值属性和分类属性。在此基础上,本文提出了一种利用MapReduce模型并行化K-prototypes聚类算法来处理大规模混合数据。实验结果和理论分析表明,在保持聚类准确率的前提下,随着数据集大小的不断增加,该并行化聚类算法都具有良好的可扩展性,达到了接近线性的Speedup效果。