【摘 要】
:
随着云应用对运行时间和性能水平要求的逐步提高,以及内存价格的持续走低,基于内存的分布式计算框架Spark获得了前所未有的关注。主要研究DBSCAN算法在Spark上并行化的设计与
【基金项目】
:
北京市自然科学基金(2112011);中央高校基本科研业务费基金(2050205)资助
论文部分内容阅读
随着云应用对运行时间和性能水平要求的逐步提高,以及内存价格的持续走低,基于内存的分布式计算框架Spark获得了前所未有的关注。主要研究DBSCAN算法在Spark上并行化的设计与实现,通过整体分析找到算法并行化可能的性能瓶颈,并从Spark的角度设计了并行DBSCAN算法的DAG图,优化了算法的并行化策略,最大化地降低了shuffle频率和数据量。最后将并行DBSCAN算法与单机DBSCAN算法进行性能对比,并通过实验分析不同参数对聚类结果的影响。结果表明,与单机DBSCAN算法相比,基于Spark的并行DBSCAN算法在聚类精度没有明显损失的情况下,数据量在3百万行时运行效率提高了37.2%,且加速比达到1.6。
其他文献
给出了一种与艾森斯坦判别法截然不同的判断整系数多项式无有理根的方法,这种判别法不仅能够解决一类不能由艾森斯坦判别法直接判别的整系数多项式,而且对于复杂的整系数多项
在社会工作教育发展二十多年后,社会工作岗位开始得到体制认同,并大力推动时期,如何定位社会工作人才培养目标,如何挖掘、动员、整合各种资源,成为社工界关注的焦点。本文以
目的 探讨经口咽入路重建钢板单节段内固定治疗不稳定性寰椎骨折的临床疗效。方法 回顾性分析2008年1月—2017年12月广西骨伤医院采用经口咽入路重建钢板单节段内固定治疗的3
目的探讨茵栀黄口服液联合注射用硫普罗宁治疗药物性肝损伤的临床疗效。方法选取2015年8月—2017年9月成都市新都区人民医院收治的药物性肝损伤患者100例为研究对象,根据随机
作为一种社会意识,"工匠精神"是匠人们基于高技能水平,在工作过程中所渗透出的"德、研、新、艺"的职业精神。社会对"工匠精神"的不当使用有时出现以偏概全或肆意滥用的现象。
目的探讨维肝福泰片联合恩替卡韦分散片治疗活动性代偿期乙型肝炎肝硬化的临床疗效。方法选择2015年1月—2016年7月成都市双流区第一人民医院收治的活动性代偿期乙型肝炎肝硬
以AP1000反应堆堆芯熔融物堆内滞留(IVR)策略为研究背景,采用去离子水为工质,在大气压下针对倾斜矩形结构开展下朝向加热表面汽泡行为的可视化实验研究。加热表面倾角从0°变
选取失业保险与促进再就业相关的几个指标,对河南省失业人员再就业统计数据进行了初步描述,在此基础上采用纵向综合评价法建立模型对河南省失业保险制度在这一时间段的实际运
<正>党的十九大是不忘初心、牢记使命的大会,是举旗定向、擘画蓝图的大会,是引领新时代、引航新征程的大会,更是必将以其高度的前瞻性和深邃的思想性镌刻于历史的大会。作为
种族歧视是西方社会中存在的重要问题,也是西方社科领域研究的重要问题。本文使用citespace等文献计量工具对wos系统中2007—2017年种族歧视研究的文献进行可视化分析,并且重