【摘 要】
:
通过实验,从运行时间、加速比、可扩展性和规模增长性4个方面比较了Spark平台中3种典型的聚类算法即K-means聚类算法、二分K-means聚类算法和高斯混合聚类算法的性能。实验结
【机 构】
:
中央财经大学信息学院,电子科技大学网络与数据安全四川省重点实验室,卡内基梅隆大学海因茨学院信息系统管理系
【基金项目】
:
网络与数据安全四川省重点实验室开放课题(NDSMS201604);中央财经大学青年教师发展基金项目(QJJ1634)资助
论文部分内容阅读
通过实验,从运行时间、加速比、可扩展性和规模增长性4个方面比较了Spark平台中3种典型的聚类算法即K-means聚类算法、二分K-means聚类算法和高斯混合聚类算法的性能。实验结果表明:1)随着节点个数的增加,3种算法对百兆以上规模数据集聚类的运行时间明显减少;2)当数据集规模大于500MB时,3种算法的加速比均有明显提高,且随着节点个数的增加,加速比近似于线性增长;3)3种算法的可扩展性随着节点个数的增加而降低,当数据集规模大于500MB时,相对于K-means和高斯混合算法,二分K-means算法
其他文献
公司名称电话.Ic侧试系统产品服务项目SSI/MSILSI/VLSI存储器镇拟混合信号其它侧试开发洲试考化计.北京华峰侧控公司印388354...北京科力公司侧试工程部仗抖17份帕...北京科
在煤场、矿场、粮仓、垃圾处理厂、土方工地等大型散货基地,统计煤、粮食等形状不规则的生产资料的体积是一个难点问题。目前,主要采用人工测量和仪器测量的方式进行体积测量,人工测量困难大,耗时长,不具备实时性,并且个别情况下人工无法测量;利用盘煤仪、全站仪、便携式激光测量仪等专用仪器测量成本高,人为影响大。为了解决此类体积难测量的问题,本文提出了一种利用双目立体视觉技术,来解决不规则物体体积测量问题的方法
目的:探讨药物致脱发的特点及一般规律。方法:检索中国知网(CNKI)1980--2012年国内期刊公开发表的有关药物导致脱发的文献,并进行整理、统计和分析。结果:共收集到80篇有效文献,126
在公路桥梁的设计中,设计过程中可能偏向一些其他性能,或者设计工作者的专业程度问题,导致设计的公路桥梁在桥梁的安全性和耐久性方面可能达不到相应的要求和标准,进而会出现
随着骨科对下肢人工膝关节、髋关节置换术和矫形手术的逐渐增多,现骨科医生迫切需要影像科能提供双下肢全长片[1],以便在确定手术方案前明确知道下肢力学轴线与股骨解剖轴线
章士钊是中国近现代民主法治的倡导者和追求者。他深受中国传统文化的熏陶和西方自由主义思想的影响,在清末民初的行政诉讼体制的论争中,提倡司法平等,追求个人自由和民主权
对于缺少经费支持的小型图书馆,自行开发软件和建设各类免费资源的数据库,就成为小型图书馆员需要认真来做的一项工作。文章是基于VODCMS6.0、久久影音流媒体服务器、Apache
中国电影在跨越式发展的同时,也遭遇着危机,化解危机的重要途径便是美学升级。从以往特别是2017年中国电影的创作实践看,当下国产电影的美学升级主要有两条路径。路径之一为