基于Spark的K-means算法的研究与应用

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:yintaozhy1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今信息化时代中,社会各个领域所产生的数据呈现井喷式增长,如何在海量且复杂的数据中挖掘出潜在具有价值的信息已经成为了一个相当热门的研究课题,Kmeans算法作为数据挖掘中常用的聚类算法,其算法原理简单且有着比较高效和准确的聚类效果,然而该算法在处理大规模数据时迭代速度较慢,同时初始聚簇中心选取也会对聚类结果产生较大影响;其次面对海量数据的挑战,单机运行的K-means算法也已经不能满足日益增长数据的计算需求。针对上述问题,本文提出一种改进的Kmeans算法,并结合Spark分布式平台实现算法的并行化,以此提升该算法处理海量数据的性能。本文主要工作内容如下:(1)对Hadoop平台的HDFS分布式存储系统和YARN资源管理器及Spark计算框架进行理论知识的准备,同时对K-means聚类算法的原理和不足之处进行研究。(2)针对传统K-means算法处理大数据的局限性,结合随机梯度下降然后采用Adam算法自适应确定算法更新梯度的方向,再使用指数衰减学习率控制学习率变化,使得随机K-means算法更好的收敛。最后对其初始聚簇中心的选取和运行效率做出了相应的改进,并结合Spark计算框架和RDD的特性对本文改进的算法设计并行化方案,通过Spark分布式平台实现算法的并行化来提高其运行效率。(3)搭建Spark集群作为实验平台。一方面对本文改进算法进行了性能评估,通过实验表明改进K-means算法相比传统K-means算法和K-means++算法聚类准确性和鲁棒性都有了明显的提升;另一方面进行了算法加速比和拓展比的实验,其结果表明该算法在Spark集群中处理较大规模数据集时有着较好的加速比和拓展比,有较高的实用性和良好的并行运算效率。(4)基于B/S架构和Spring系列框架,搭建了电信用户分析系统,将本文提出的改进算法应用于Spark分布式计算平台在电信用户分析系统用于用户细分,根据结果分析各类用户的消费行为和特征,制定不同的营销方案。本文为了提高K-means算法在数据挖掘中的聚类效果和运行效率,提出一种改进的K-means算法,并对该算法的性能进行了实验验证,实验结果表明基于Spark的改进K-means算法并行化运行有着良好的聚类效果和运算效率。最后将本文提出的改进算法应用于Spark分布式计算平台在电信用户分析系统用于用户细分,验证了本文改进算法的有效性和应用价值。
其他文献
随着当今社会数据总量的指数式增长,海量数据需要被可靠存储,传统的数据存储方式面对庞大数据已经显得无能为力,分布式存储系统在此种情况下应运而生,其易扩展和低成本的优势使其逐渐成为海量数据存储的绝佳选择。分布式存储系统由众多的节点组成,随着系统规模的扩展,节点数量的不断增加,失效的情况愈加频发,因此需要采用容错技术来提升数据存储的可靠性。容错技术可分为副本技术和纠删码技术。副本技术是将原始数据存储一定
心肌梗死是一类严重的心血管类疾病,其发病有易突发、病情险、易造成死亡和易引发相关病症等特征,心梗的预诊、早诊对患者的预防、治疗和预后具有重要意义。目前常见的使用心电图自动诊断技术进行心肌梗死辅助诊断的研究中往往存在需要定位的特征点多、除QRS波群外特征点定位精度不高、特征提取严重依赖特征点定位准确度、特征提取易忽略信号微弱特征、分类诊断性能不佳、院外预诊、助诊系统缺乏等问题。本文重点专注基于机器学
农业生产实现智能化对提升农业生产效率有着非常大的促进作用。高精度的农田场景数字化地图是实现植保智能化的关键,而农田场景的三维重建技术是实现农田地图数字化的重要研究。三维重建恢复出来的三维地图可以运用于植保无人机的自主导航作业、障碍物的识别、农作物长势识别、网格表面重建等任务。本文以视觉三维重建为研究背景,对基于农业测绘无人机高空拍摄到的农田数据集的三维稠密点云重建算法展开研究。首先,采用视觉SLA
人们对建筑环境日益增长的需求促进了建筑智能化和建筑自动化系统的快速发展,楼宇自动化和控制网络(BACnet)协议是楼宇自动化领域中使用最广泛的协议之一。为了满足更为迫切的互联互通需求,BACnet/IP协议在BACnet标准中定义了一个可选的且前景可观的安全性体系结构。随着BACnet/IP技术的应用,楼宇网络可以通过高速以太网实现更广泛更经济的异构网络互连。但在市场环境中,由于各大楼宇厂商往往倾
作为方便个人使用及保护隐私的手机配套产品,耳机已经成为人们日常生活中的通用电子产品。随着居民消费力的提高,消费者对耳机的数量及质量需求正逐步提高,这对耳机的生产质量及效率提出了新的要求。在耳机制造过程中,必须对耳机进行调音网纸的粘贴,以便后续工序对耳机的音质调节。当前工业现场调音网纸粘大多采取手工拾取粘贴。该方式因人工操作会导致调音网纸粘贴位置出现偏差,影响耳机调音孔透气量,进而影响耳机音质等级。
在旋转设备故障诊断领域,通常会遇到数据非均衡的问题,即故障数据的数量特别是灾难性故障数据或意外的机械故障很少,而正常状态数据的数量非常大。当常用的基于数据驱动的故障诊断方法对非均衡数据实现预测后,得到的是结果往往是多数类样本的预测精度很高,而少数类的精度则会很低,这样的预测能力将会产生致命的后果。比如在工业领域,如果将旋转设备的故障状态误诊为正常状态,则可能会造成严重的经济损失甚至人员伤亡。因此,
在这个计算机技术不断更新换代的时代,人们给计算机赋予了视觉的功能,用以代替人眼进行观测。未来几年机器视觉在工业领域的应用将会越来越广泛,尤其是耗费大量人力的人工检测流程,在工业领域使用机器视觉能够提升产品质量、提高检测速度等。在硅钢片焊缝缺陷检测流程中,采用人工检测的方式容易受到检测人员疲劳和身心健康的影响,同时人工检测比较耗时,每一次的检测标准又无法统一,因此使用自动化检测系统来代替人工检测已经
随着一批新产业新技术的发展,例如5g通信技术的兴起,对高品质注塑产品的需求也与日俱增。注塑业是标准的离散型制造业,完整的产业链包括原料的生产、运输、储存,再到注塑工厂生产成型件。而原料的质量是影响注塑成品质量的关键因素,所以加强对注塑原料质量检测是非常必要的。注塑原料的检测是一项系统的工作,检测手段包括目视、量测及试生产。其中目视主要针对注塑原料的表面缺陷及尺寸缺陷,但是传统的人工目视存在诸多缺点
在信息爆炸式激增的大数据时代,字典学习模型受到广泛地关注,且已被成功地应用于信号后续处理的各个领域,比如图像处理、图像融合、视频关键帧提取等。现有的字典学习算法主要基于0L稀疏范数、凸松弛1L稀疏范数约束字典学习模型。0L稀疏范数的不连续性会导致其优化求解极具复杂性。此外,由于1L稀疏范数是0L范数的凸松弛近似,其约束的字典学习存在稀疏度弱、估测值偏差较大等问题。因此,针对现有基于0L稀疏范数和1
网络化系统是计算机、通信和控制快速发展以及相互作用的产物,相比于传统的控制方案,网络化系统的模式结构更为复杂,空间分布更为广泛,性能更加优异。网络化系统是实时系统,主要分为被控对象、传感器、控制器和执行器四个部分,其信息传输通过网络建立连接。网络化系统具有成本低、安装和维护简单、可靠性高等优点,是其能够在多个领域广泛应用的重要因素。然而,通信网络的引入使得系统在信息交流过程中,通常会出现带宽受限、