论文部分内容阅读
随着数据处理规模的不断扩大,对算法执行效率的要求不断提高。Spark作为基于内存计算的分布式并行化框架得到了前所未有的关注和广泛应用。为了提高聚类精度和效率,研究了Kmeans算法的改进及其在Spark平台上的并行化。针对K-means初始聚类中心选取的随机性问题,设计了基于最小生成树的K-means算法MST-K,该算法采用最小生成树对原始结点进行初始划分,减轻初始聚类中心随机选取对聚类结果的影响;采用余弦相似度公式来避免由于各属性衡量单位的差异性而导致的"相似不相同"问题。针对MST-K算法的执行效率