论文部分内容阅读
当前,在聚类分析中仍然存在准确性和完备性方面的不足,也没有哪种算法能够同时适用于应用的各个方面且都是有效的。在高性能计算方面,主要面临着由于大数据集(数据密集型计算环境下的数据)而带来的挑战。这些大数据集一般具有海量、高速变化、分布、异构、半结构化或非结构化的特点。对于这样的数据,传统的数据挖掘算法已经不能满足其处理要求,逐渐成为数据处理技术中的瓶颈问题。本文通过对基于熵的模糊聚类算法(EFC)和中心点聚类算法的研究,提出了一种改进的基于熵的中心聚类算法(Improved Entropy-based Central Clustering Algorithm,IECC算法)。该算法首先通过EFC算法得到差异性十分明显的原始数据集的簇心,再以得到的簇心为中心再次进行聚类分析,通过各点到各中心的距离将各点重新分配到以各中心所代表的集合中。改进的算法不仅可以得到紧凑且差异明显的聚类结果,还可以使聚类结果的准确率得到有效提高。为了适应数据密集型计算环境下的数据处理要求,本文又提出一种将改进的基于熵的中心聚类算法(IECC算法)在Hadoop分布式平台上实现的可行性方案。具体的实现主要分为三个阶段即Map、Combine和Reduce阶段,在分节点上主要是Map的过程,该过程只需要得到差异性十分明显的原始数据集的簇心以及相应的离群点,将其看作是该节点上的代表点;再经过Combine阶段,把分节点上得到的簇心和离群点相关信息传到主节点上,通过Combine合并相同簇心;最后,在主节点上执行IECC算法,即对Combine过程处理过的数据执行IECC算法,得出最终聚类结果。由于数据密集型计算的发展和其数据的独特特点,将新提出的算法在数据密集型计算环境下实现,有利于其解决数据密集型计算环境下数据分析和挖掘的问题。