基于Spark的改进K-means算法的并行实现

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户：venus521

【摘要】

：

针对K-means聚类算法存在的不足,提出了改进K-means来提高算法的性能,利用简化后的轮廓系数作为评估标准衡量K-means算法中k值,采用K-means++完成K-means算法初始中心点的选

【作者】

：

杜佳颖段隆振段文影卜秋瑾

【机构】

：

南昌大学信息工程学院

【出处】

：

计算机应用研究

【发表日期】

：

2020年2期

【关键词】

：

聚类算法简化轮廓系数形态学相似距离相似性度量

【基金项目】

：

国家自然科学基金资助项目(61070139,81460769)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对K-means聚类算法存在的不足,提出了改进K-means来提高算法的性能,利用简化后的轮廓系数作为评估标准衡量K-means算法中k值,采用K-means++完成K-means算法初始中心点的选择。设置好k值以及初始中心点后使用形态学相似距离作为相似度测量标准将数据点归属到距离最近的中心点形成的簇中,最后计算平均轮廓系数确定合适的k值,并在Spark上实现算法并行化。通过对四个标准数据集在准确性、运行时间和加速比三个方面的实验表明,改进后的K-means算法相对于传统的K-means和SKDK-me

其他文献

技术获取对后发企业创新绩效的影响文献综述

技术获取作为企业重要战略资源,是企业维持可持续发展中必不可少的竞争优势.企业在运营过程中如何采取技术策略提升企业创新绩效,技术获取多样性将会为企业创新绩效带来怎样

期刊

本土后发企业技术获取多样性知识来源企业创新绩效

普拉克索联合恩他卡朋治疗对帕金森病非运动症状的临床疗效及安全性评价

目的评价普拉克索联合恩他卡朋对帕金森病非运动症状患者的血清同型半胱氨酸及血尿酸水平影响。方法入选66例帕森金病非运动症患者,分为试验组和对照组,每组33例。对照组口服

期刊

普拉克索恩他卡朋帕金森病非运动症状

探索适合汉语教育特点的出版之路

汉语教学资源的出版是一项新生的事业，有着非常广阔的市场。如今，虽然汉语教材的出版有了快速的发展，但真正能够满足学习者需求的、优秀的本土化汉语教材还不多，这也是出版界的发

期刊

汉语教育汉语教材出版特点

探索护士岗位管理建立优质护理服务长效机制

根据医院探索实施护士岗位管理的工作情况,阐明了探索护士岗位管理是推进优质护理服务长效机制建立的重要途径。护士岗位管理包括岗位设置、岗位分析、岗位培养和岗位评价等,

期刊

岗位管理优质护理

医院行政管理人员及行政管理工作中的问题与对策

分析了现阶段医院行政管理人员现状及存在的问题:管理经验少、行政人员个人因素、部门职责交叉重叠、部门之间协调机制运转不畅、行政管理流程不合理以及人力资源管理滞后。

期刊

医院行政医院管理对策

医院人才队伍建设的实践

通过分析医院人才队伍建设中存在的问题,提出制定人才队伍建设规划,从创新人才管理机制、合理配置人力资源、大力引进高层次人才、培养现有人才等几个方面着手,大力加强人才

期刊

人才队伍建设医院发展

黄庭坚书法艺术创作分期初论

如果以苏轼为那个时代具有号召力为轴心的话,黄庭坚书法风格的形成和变化,呈现出较为明显的阶段性。这种阶段性的划分即以苏黄交游及其影响为内在的脉络和依据。我们以此将黄

期刊

交游书法创作分期

从《阿凡达》看电影与现实的审美关系

3D版《阿凡达》的上映在国际国内掀起了一系列的潮流,从这些流行趋势当中,我们要追寻的是这部电影所体现的观众对当今电影的审美理想和电影本身的美学理念,从电影如何反映现

期刊

《阿凡达》审美现实主义

技术并购对创新绩效影响文献综述

在总结和回顾有关现有技术获取的相关文献的基础上,对文献加以整理分析,通过整合CNKI重要期刊中以"技术并购""创新绩效"为主题的相关实证文献资料,从技术并购对企业绩效的影

期刊

技术并购创新绩效综述

Spark环境下K-means初始中心点优化研究综述

为了能够及时了解Spark环境下经典聚类算法K-means的最新研究进展,把握K-means算法当前的研究热点和方向,针对K-means算法的初始中心点优化研究进行综述。首先介绍了内存计算

期刊

K均值算法分布式内存计算框架算法优化聚类算法

基于Spark的改进K-means算法的并行实现

其他学术论文