【摘 要】
:
随着网络技术的发展和社会信息化进程的加快,数据规模迅速增长,传统的聚类算法很难满足海量数据的分析处理需求。针对目前K-means聚类算法处理海量数据时存在聚类效果不稳定
【基金项目】
:
山西省教育科学"十三五"规划课题(GH-17100),山西大学商务学院科研项目(2017011),山西大学商务学院教改课题(SYJ201711).
论文部分内容阅读
随着网络技术的发展和社会信息化进程的加快,数据规模迅速增长,传统的聚类算法很难满足海量数据的分析处理需求。针对目前K-means聚类算法处理海量数据时存在聚类效果不稳定、准确率不高等问题,本文基于MapReduce模型,采用抽样技术和最大最小距离法,在此基础上提出一种高效的并行K-means聚类算法。选用UCI数据集进行实验,结果表明该算法的收敛速度、聚类精度,以及在处理海量数据时的并行性能都得到了提高。
其他文献
前脑是大脑功能的高级活动中心,其发育的关键事件发生在早期阶段,包括在神经上皮期(the neuroepithelial stage,NE)的神经祖细胞和神经前体细胞的产生;前基板发育期(the prep
选取连云港市赣榆区目前饲养的黄羽、栗羽和配套系3个品种各1 000枚种蛋孵化育雏,测定孵化率、料蛋比等主要经济指标,分析对比各品种收益情况,按照2015年当地平均价格计算饲
测定有烟酒嗜好和无烟酒嗜好的84例健康老年人的超氧化物歧化酶(SOD)和过氧化脂质(LPO),结果表明:吸烟组的SOD明显低于对照组;而LPO明显高于对照组。两组间差异有显著性(P<0.01),饮酒组
本文报道了作者1989~1990年对兰花圆斑病的研究结果。该病菌初步鉴定为Cylindrosporium dioscoreae Miyabe et Ito.病菌以菌丝和分生孢子在患病组织内越冬,病菌主要侵染叶片,
本文就浙江省主要的丛生竹种大木竹、粉单竹、温州水竹、绿竹、麻竹和吊丝丹等竹材各个部位纤维形态和纤维组织比量系统地进行了显微观测和分析。结果表明6种竹材纤维长为2.2
<正>P21蛋白是ras基因族的一种共同表达产物,在多种肿瘤中有过量表达.为探讨其与脑胶质瘤发生的关系,应用SP免疫组化方法检测79例脑胶质瘤P21蛋白的表达.1 材料与方法取1985~1
在温室条件下,采用盆栽根箱培养的方法研究了盐胁迫下土壤-杨树系统中盐分离子的运移与分布特征.结果表明,各处理下杨树根际土壤中K+出现亏缺,Na+、Ca2+、Mg2+均出现富集.在
用果尔与氟乐灵、除草醚作除草对比,历时2年。结果表明:果尔是目前杉木圃地上苗期用药一种很好的除草剂,剂量0.450~0.600l/hm~2,除草率达94.2%~98.8%,也可作为杉木播后的土壤处理
在写作内容指导上,有两种基本的指导路径,一种是"炮制法",就是通过课堂上表演式的活动来现场制造内容,比如现场进行成语接龙大赛,然后让学生当场把比赛过程写下来。这类活动的
使用超分子结合物载体,通过受体介导的内吞作用,对真核生物进行外源基因的转移,是近十年发展起来的一种排病毒载基因转移技术。这种非感染性基因转移和表达系统可以把目的基因转