基于Spark框架的改进并行K-means算法研究

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:QIANNENGWUXIAN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的K-means算法由于随机选择初始聚类中心,使得聚类结果不精确。随着网络数据量的激增,传统的串行算法运算时间明显太长,有研究者利用Hadoop并行框架进行K-means并行化研究,虽然提高了算法的运行时间,但K-means算法在聚类判定时需要反复迭代,反复进行磁盘的读写操作,很大一部分时间花费在磁盘操作上,并行算法的效率大打折扣。为此,本文提出基于Spark框架的改进并行K-means算法,通过对RDD的操作有效解决了频繁的磁盘读写。在标准数据集下,进行对比实验,通过聚类效果和算法并行的加速比,验证
其他文献
在PHP中,默认情况下,访问SQL Server方式存在着不支持UTF-8字符集的问题。对PHP系统和代码进行适当的修改和扩展后,将SQL Server的数据集(Character Set)设为UTF-8,使PHP访问SQ
一个民族的兴衰,和这个民族对本民族历史的重视程度有很大关系。本文通过对新时期我国高校历史教育的现状和问题进行深入分析,指出目前应该大力加强历史教育,培育民族精神,并提出
伴随着智慧型信息资源逐渐取代传统的动力型物质资源,成为社会发展进步的主要推动力量,科学技术成为了实现祖国伟大复兴的关键性因素。在我国市场经济激流猛增的局势之下,传
使用流媒体已逐渐成为网络教学软件的潮流,但该技术的时基特性和可同步植入各种数据的潜力还未得到充分重视.流媒体文件的标头结构,是流媒体文件结构的一部分.该技术在远程教