论文部分内容阅读
随着大数据时代的到来,传统的聚类算法很难高效地处理海量数据,而云计算平台凭借负载均衡、网络存储、虚拟化等技术,有效地突破了耗时耗能的瓶颈,为海量数据的处理提供了良好的解决方案。主要研究了Hadoop平台下的MapReduce编程模型及传统K-means算法,提出了一种基于MapReduce的并行化K-means算法的设计方案,包括Map函数和Reduce函数的设计。通过实验,验证了并行化K-means算法适用于较大规模数据集的分析和挖掘。