基于MapReduce并行化计算的大数据聚类算法

来源 :计算机应用研究 | 被引量 : 9次 | 上传用户:yifanjiawei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升
其他文献
讨论任意形状磁场区域所产生的感生电动势的计算方法.首先讨论有限长直导线的情况.然后以圆形、矩形和三角形磁场区域为例来计算,结果表明不同形状的磁场区域对相同长度直导
机床的自动化程度越来越高,所以人们对于机床的精度要求也就越来越高。目前提高机床精度是先进制造技术的关键技术,主要有误差避免和误差补偿两种方法去提高精度。但是,误差
  基于1951-2007年通辽、开鲁、扎鲁特3个气象站的降水和气温资料以及通辽市水文勘测局、水务局提供的有关水文资料,对西辽河平原水资源变化进行了研究.结果表明:1951-2007