基于Spark框架的K-means聚类算法优化与应用

来源 :成都理工大学 | 被引量 : 1次 | 上传用户:xm10282008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的迅猛发展,社会各行业每天产生海量的各式各样的数据,数据的爆发式增长推动了大数据时代的到来,如何从海量的数据中挖掘出有用的信息,是当前研究的热点课题之一。通过数据挖掘技术来发现数据中有价值的内容越来越受到关注。聚类分析作为数据挖掘的重要组成部分,在很多领域已经得到了充分的发展与应用,但是在当前大数据时代的背景下,传统的聚类分析技术在聚类准确性以及处理效率等方面越来越难以满足人们对海量数据挖掘的需要,于是,通过分布式计算框架如Hadoop,Spark等对聚类算法进行分布式并行化实现,赋予聚类算法强大的计算能力,使算法拥有更好的时间性能,更好的提高数据挖掘效率是当今研究数据挖掘的趋势。本文将采用Hadoop中的HDFS组件进行数据存储,因为其具有高可靠、高容错和高扩展等优点。使用基于内存计算的Spark框架来进行数据处理,该框架相对于Map Reduce计算框架拥有更优秀的执行效率。引入新兴起的群体智能优化方法中的布谷鸟搜索算法,因为该算法拥有参数少,全局寻优能力强,收敛快等优点,故使用该算法来改进传统的K-means聚类算法,最后将改进后的K-means聚类算法在分布式集群环境下运用到Spark框架中进行并行化实验。具体工作如下:(1)由于传统布谷鸟搜索算法在后期收敛速度较慢,收敛精度较差,故通过引入自适应发现概率和自适应产生步长机制来改进优化布谷鸟搜索算法,使其后期收敛速度加快,收敛精度提高。(2)虽然原始K-means算法简单,局部搜索能力强,但如果初始质心选取不好的话就易陷入局部最优,所以通过引入遗传算法思想优化原始K-means算法初始质心,再将改进后的布谷鸟搜索算法与优化后的K-means算法相结合,弥补了K-means算法的上述缺陷,使K-means算法全局搜索能力增强,聚类效果更好。(3)在分布式集群环境下将本文提出的改进K-means算法和原始K-means算法以及近年来其他学者提出的改进K-means算法利用不同数据集进行对比实验,结果表明,本文提出的改进K-means算法相比于其他学者提出的改进K-means算法和原始K-means算法聚类执行时间更少,同时本文提出的改进K-means算法相对于原始K-means算法并行化加速比更快,扩展比更快收敛,总的来说本文提出的改进K-means算法相对于原始K-means算法和其他学者提出的改进Kmeans算法有更好的聚类效果,时间开销更短。(4)将本文提出的改进K-means算法应用在实际的电子病历肝病患者肝功能数据处理中,通过对比原始K-means算法、相关学者提出的其他改进K-means算法以及本文提出的改进K-means算法在处理肝病患者肝功能数据的聚类准确率和聚类执行时间速率,证明本文提出的改进K-means算法在实际应用中相对于其他算法聚类性能更强、拥有更好的实用价值。
其他文献
急性肝损伤由物理、化学、生物等多种致病因素引起的肝脏急性病变。在兽医临床上,对于急性肝损伤或者慢性肝衰竭目前尚无特效药物治疗,仍在强调积极的支持治疗和对症治疗,早诊断早治疗,总体预后较差。近年来,在人类医学上,干细胞移植显示出巨大的潜能和优势。但在兽医临床上,研究不多。本文旨在研究脂肪间充质干细胞(Adipose tissue-derived Stromal Cells)对四氯化碳(Carbon
目的:通过比较艾拉莫德联合来氟米特与甲氨蝶呤联合来氟米特及来氟米特单药治疗老年类风湿关节炎(elderly onset rheumatoid arthritis,EORA)的疗效,评估艾拉莫德联合来氟米特治疗EORA的临床效果,并进一步分析其联合用药的安全性。方法:采用随机、单盲的实验方法。选取2017年1月至2019年9月期间在右江民族医学院附属医院血液风湿科门诊及住院治疗的EORA 180例(
随着物联网设备的飞速发展与广泛应用,物联网设备的安全性问题也日益凸显。然而物联网设备硬件资源受限,硬件架构复杂,增加了分析模块的适配难度,使得通用的漏洞挖掘技术不完全适用于物联网设备。现有的模糊测试框架一方面难以监控物联网设备中的模糊测试对象的运行状态,另一方面难以取得物联网设备中的运行时信息。给物联网设备应用的模糊测试带来了 一定的困难。本文在分析现有物联网设备漏洞挖掘技术的基础上,研究了针对A
随着海洋开发与海洋经济的发展,船舶活动带来的海洋溢油污染日趋严重。每年流入海洋环境中大量的石油类污染物,给人类健康安全、海洋环境和海洋经济都带来了巨大的伤害。海洋溢油数据采集及预处理是溢油扩散分析的前提,溢油扩散轨迹的分析与预测是溢油事故处理和决策的基础。将溢油数据采集与溢油预测技术两者综合应用,可以为溢油应急反应决策提供及时有效的信息支持,增强船舶溢油决策的科学性。本文以提高船舶海洋溢油应急能力
我国西南地区水电资源丰富,电解铝企业陆续入驻云南各地州,自2016年电解铝废渣被环保部纳入《国家危险废物名录》以来,诸多电解铝企业面临危废渣库建设选址及地下水环境影响评估问题,而这些电解铝企业的危废渣库填埋场对项目所在地区域地下水造成极大的污染风险。本文主要采用实验和计算相结合的方法来研究氟化物在变饱和带中的运移规律。通过研究获得以下结论:(1)采用初始阶梯浓度方式进行静态吸附结果表明,红黏土对氟
目的探讨全身磁共振弥散加权成像技术(Whole-body diffusion weighted imaging,WB-DWI)在初诊多发性骨髓瘤(Multiple myeloma,MM)患者早期诊断中的临床应用价值,以便更好的指导临床工作,为MM早期诊断提供有效的临床评估手段。方法收集2015年1月至2019年9月于本研究中心行WB-DWI检查的所有患者共105例,包括符合纳入标准的初诊MM患者6
詹尼斯·加洛韦是当代苏格兰女性先锋文学运动中重要的一员,她的小说始终围绕女性话题,真实展现出苏格兰女性的生存现状。她的小说虽采用女性视角,却没有局限于传统的女性主
宗其香先生是中国近现代艺术史上一位成绩斐然的艺术大家,他成功地将中国传统绘画中的写意与西方写实艺术表现形式有机结合了起来。在他的艺术生涯中,“江城”(指江边之城,简称“江城”)夜景题材的山水画尤其精彩,具有独特的风格面貌。本文旨在分析宗其香“江城”夜景山水画的艺术特征,并阐述了其“江城”夜景山水画对本人创作产生的影响。本文第一章介绍了宗其香的生平简历与创作历程。将他的生平简历进行了概述,创作历程对
通过功能性基因的导入纠正功能丧失或在生理水平上表达缺陷的基因成为基因治疗的主要方向。mRNA凭借无需转录过程以及细胞质内表达的特性,可以克服DNA因为细胞核孔因素干扰和CpG免疫原性导致的不同细胞间转染效果的较大差异,同时还具有安全性更高,免疫原性更低等优势。然而mRNA因为其分子量大及本身负电的特性必须借助载体穿越选择透过性的细胞膜实现功能。病毒载体凭借较高的递送效率,成为目前临床利用最多的载体
学位
在路基发生不均匀沉降后,CRTSⅢ型板式无砟轨道也会随路基的沉降而发生变形,在运营阶段,由于底座板上部大部分已被自密实混凝土和轨道板所覆盖,从表面无法准确判断底座板的裂纹状况,而当底座板出现裂纹后会严重影响整个轨道结构的使用寿命。论文以此为基础,建立CRTSⅢ型板式无砟轨道有限元模型,对底座板裂纹的萌生问题进行了如下的研究:(1)建立CRTSⅢ型板式无砟轨道有限元模型,对运营阶段影响底座板开裂的原