面向大规模数据快速聚类K-means算法的研究

来源 :计算机应用与软件 | 被引量 : 18次 | 上传用户：wjh75

【摘要】

：

为进一步提高K-means算法对大规模数据聚类的效率,结合MapReduce计算模型,提出一种先利用Hash函数进行样本抽取,再利用Pam算法获取初始中心的并行聚类方法。通过Hash函数抽取的样本能充分反映数据的统计特性,使用Pam算法获取初始聚类中心,改善了传统聚类算法依赖初始中心的问题。实验结果表明该算法有效提高了聚类质量和执行效率,适用于对大规模数据的聚类分析。

【作者】

：

郭占元林涛

【机构】

：

河北工业大学计算机科学与软件学院

【出处】

：

计算机应用与软件

【发表日期】

：

2017年05期

【关键词】

：

大规模数据聚类算法 MAPREDUCE Hash样本抽样 PAM算法 Large-scale data Clustering algorithm MapRed

【基金项目】

：

天津市科技支持计划科技服务重大专项（14ZCDZGX00818）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

福田欧辉氢燃料电池客车闪耀张家口助力构筑“京津冀氢能版图”

梧高凤必至,花香蝶自来。中国张家口再一次聚集了氢能产业的“佼佼者”,引领“氢梦想”蓄势待发。2018年11月15-16日,以“协同发展,推动能源革命”为主题的第一届中国张家口

期刊

张家口市燃料电池客车氢能氢燃料电池汽车产业链协同可再生能源版图福田

《岗位》

<正>~~

期刊

二维情况下量子电磁场在费米子单圈图近似下的Casimir效应

本文采用Ｆｅｙｎｍａｎ的路径积分量子化方法，计算出两个平行的，理想的金属线之间在绝对零度下量子电磁场对Ｃａｓｉｍｉｒ力的前二级贡献，即自由电磁场与有质量的费米子单圈图的贡献。

期刊

CASIMIR效应量子电磁场费米子单圈图Casimir effect

陕西商洛马铃薯优质高产栽培技术

马铃薯为陕西商洛市的主要经济作物(以下简称洛薯),为切实提升洛薯的种植效益,作为基层的农技服务站,需要切实注重优质高产洛薯栽培技术的推广和应用。尤其是在新冠肺炎疫情

期刊

洛薯优质高产栽培技术

长治公交举行脱钩改革交接仪式

5月25日，公司举行脱钩改革交接仪式。市经济和信息化委员会（国资委）副主任杨富进，接收组组长李树军、副组长韩亮，市交通运输局副局长卢四海、总会计师贾文革、综运科科长王德强、

期刊

交接仪式改革公交长治交通运输总会计师领导班子副主任

夹片车外锥自动装置的设计

根据夹片的结构特点,设计出基于CKM6125本体的夹片车外锥自动化装置;整个装置由料斗进给装置、整列装置、分离机构、送料机构、卸料机构组成,设计及校核过程进行过详细的运动

期刊

夹片自动装置气动技术PLC车削clip automatic device pneumatics PLC turning

日光温室黄瓜高产高效栽培技术

黄瓜是人们日常食用蔬菜,因营养丰富广受喜欢。我国北方因气候原因,黄瓜种植主要以温室种植为主,为了提高温室黄瓜产量,需要对温室黄瓜高产种植技术进行研究。文章从温室建设

期刊

日光温室黄瓜高产栽培技术

不负使命金龙客车圆满服务2018APEC

因为APEC,因为中国,南太明珠巴布亚新几内亚成了世界关注的焦点。11月15日至18日,习近平主席在巴新首都莫尔兹比港停留4天3晚,对巴新进行国事访问,同建交太平洋岛国领导人会

期刊

金龙客车巴布亚新几内亚服务APEC国事访问领导人习近平太平洋

基于约束总体最小二乘的泰勒级数定位算法

目前基于到达时间差(Time Difference of Arrival,TDOA)的无线定位算法既不能在基于距离平方差(Squared Range-Difference,SRD)的误差平方和最小模型中获得总体最小二乘准则下的全局最优解,也不能在基于距离差(Range-Difference,RD)的误差平方和最小模型中获得普通最小二乘准则下的全局最优解。将泰勒级数法与约束总体最小二乘法(Const

期刊

无线定位泰勒级数约束总体最小二乘准则到达时间差Wireless locationTaylor seriesConstrained total least

地铁防雷接地网施工工法

文章主要从安装工法角度介绍了地铁防雷接地网的安装方法、施工顺序、施工要点和施工中的注意事项。

期刊

防雷接地网工法地铁放热焊

面向大规模数据快速聚类K-means算法的研究

与本文相关的学术论文