面向大数据处理的并行优化抽样聚类K-means算法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:w_r_c_h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大数据环境下K-means聚类算法聚类精度不足和收敛速度慢的问题,提出一种基于优化抽样聚类的K-means算法(OSCK)。首先,该算法从海量数据中概率抽样多个样本;其次,基于最佳聚类中心的欧氏距离相似性原理,建模评估样本聚类结果并去除抽样聚类结果的次优解;最后,加权整合评估得到的聚类结果得到最终k个聚类中心,并将这k个聚类中心作为大数据集聚类中心。理论分析和实验结果表明,OSCK面向海量数据分析相对于对比算法具有更好的聚类精度,并且具有很强的稳健性和可扩展性。
其他文献
随着人们经济水平的提高,越来越多的人重视职工的文化生活。我国已经逐渐实现了小康社会的建设目标,为了迎合社会环境的变化,国家积极建设职工群众文化。文章主要研究了在新
针对已有的MapReduce模型阶段划分粒度不合理导致模型精度和复杂度存在的问题,提出了阶段划分粒度为5的多阶段MapReduce模型(MR-Model)。首先综述了MapReduce模型的研究现状;
目的了解时间分辨荧光免疫分析法(TR-FIA)和化学发光免疫分析法(CLIA)对检测血清促甲状腺激素(TSH)的临床应用价值。方法采用TR-FIA和CLIA对40例健康人、40例甲状腺功能亢进(
血钾是临床常见的检测项目之一,其结果对多种疾病的诊断、判断病情发展、衡量治疗效果和预后有着非常重要的参考价值。所以掌握血钾测定影响因素尤为重要。现将笔者所在科近年
<正> 我科试制了一种可调控电热蜡刀,其结构较简单,使用方便,可用于口腔技工操作与正畸治疗焊接不锈钢丝。整个机件系由各种电阻器、旋纽、波段开关、指示灯、电源插头及工作
目的探讨不同垂直骨面型者的颏部是否存在形态差异,以及不同垂直骨面型与下颌颏部形态的关系。方法选择未经正畸治疗的80例青少年错!患者为研究对象,年龄(12.69±0.70)岁,根
随着社会主义市场经济的不断深入发展和我军装备体制改革的逐步深入,军品生产依然存在着许多问题,这势必影响到军品的质量。军工产品的质量优劣,是关系到战争胜负和国家、民
<正>医学生在完成学校教学大纲要求的基础理论后,紧接着就要进入各临床机构进行承前启后的生产实习,以提高学生理论联系实际的能力,强化临床操作技能,为走向社会,独挡一面进
<正>检验作为医疗工作的最前沿,其工作质量承担着发现潜在疾病、协助诊断、判断病情、评价治疗效果的作用。多年以来,检验在临床诊治上充当着一个较为被动及辅助的角色,由于