论文部分内容阅读
针对海量数据难处理的难题,利用Hadoop平台下的Map-Reduce模型,实施了一种改进的对海量数据进行并行处理的K-means算法.为了解决传统的K-means算法对初始聚类中心和聚类数敏感的问题,改进算法首先对海量数据进行多次采样,找出采样数据的聚类个数;其次,利用密度法找出采样数据的聚类中心;最后,将各个样本中心点归并得到原始数据的全局初始聚类中心点.通过在Hadoop集群上部署的实验结果表明,改进后的算法相比较于传统的算法具有高效、准确、可扩展以及良好的加速比等特性.