基于Spark的数据挖掘技术研究

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:ctzlhst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化程度的提高,教育、金融、政府、医疗等社会各领域每天都在产生大量各式各样的数据,数据挖掘技术的产生便是为从海量异构的数据中提取出有价值的信息。作为数据挖掘中的重要技术之一,聚类分析方法通过物以类聚的思想,按照数据的特征属性将纷繁复杂的数据划分为不同类,实现对数据的分析。但由于数据量的快速积累,传统的聚类算法应对海量数据的处理能力已经捉襟见肘,加之其自身的缺陷,在聚类准确性和处理效率方面已经难以满足当前海量数据挖掘的需要。因此,对传统聚类算法的缺点进行针对性改进,提高算法的准确性和鲁棒性,并结合分布式计算框架实现算法的并行化,赋予其强大的数据处理能力,是当前完成海量数据挖掘任务的最佳思路。依据上述方向,本文做了如下工作:首先,阐述了本课题的研究背景及研究意义,对数据挖掘技术及云计算平台的国内外研究现状进行了介绍,重点阐述了聚类分析的相关理论知识和分布式计算框架Spark及相关技术。选择聚类算法中基于划分的经典算法K-means和近几年热度较高的基于密度的聚类算法DPC作为本文研究对象。其次,针对K-means算法中类簇数K需要提前设定且初始类簇中心随机选取导致迭代次数和聚类结果不稳定、收敛慢的缺点,结合Holdout验证和K-means++方法对原K-means算法进行改进,改进算法能够自适应的确定最佳K值和初始类簇中心。通过MovieLens数据集进行改进前后的算法的对比实验,验证新算法在聚类准确率和效率方面有着更好表现。再次,针对DPC算法中聚类结果非常依赖截断距离参数d_c的主观选取,并且难以处理分布复杂、密度变化大的数据集的缺点,通过结合K近邻和引入距离比较量,使算法能够兼顾数据整体和局部的分布情况自适应地生成最佳d_c,具有更好的性能。通过人工数据集和UCI数据集验证算法以及分离度测试,验证改进方法的可行性。最后,搭建Spark集群环境,完成了改进K-means算法和CDPC-KNN算法的并行化设计与实现,通过算法串并行实验对比验证并行化的算法对数据的处理能力大为提升,更能适应大规模数据的聚类分析。
其他文献
<正>引理1设(x0,y0)是二元一次不定方程ax+by=c(a,b,c为整数,(a,b)=1)的一组整数解,则x=x0-bt,y=y0+at,t∈Z.引理2若连分数[a1,a2,…,an]的渐近分数为p1/q1,p2/q2,…,pn/qn,则下列
在三相PFC电路分类为不解耦、部分解耦和全解耦拓扑基础上 ,分别对其中几个典型拓扑进行了分析 ,作了计算机仿真 ,并对仿真结果作了比较 ,给出了一台 5kW三相四线伪桥式PFC整
<正>工作室关注建构问题,并不仅仅是理论的需要,还有在空间设计上的意义。在混凝土框架结构空间盛行的当下,板片建造的研究不仅有其必要性,也能拓宽我们的创作思路。因此,工
<正> 在现代,有机地吸收外国文学的营养,使之融化为自己创作的血肉,已经成为每一个作家成长和发展的一个重要方面。但是,一个作家与外国文学的关系却往往是复杂的。比如,他为
枝干轮纹病是目前苹果生产中最重要的病害之一。采用人工接种方法研究了氟硅唑等7种生产中常用杀菌剂防治苹果枝干轮纹病的效果,保护性杀菌剂的预防作用、持效性以及内吸性杀
在分析物流管理专业开设《项目管理》课程现状的基础上,提出应结合物流专业特点整合教学内容,同时引入混合学习法进行教学过程的设计,并通过构建立体化教学体系,延伸学生对课
电网企业每年招聘众多高校毕业生,累计人数不断增加。能否培养好这支高学历的年轻队伍,在很大程度上关系到企业持续健康发展。本文结合国网湖南省电力公司实际,着重从培养理
<正>RFID技术的应用改变了物流配送系统,使得电子商务物流配送系统识别信息的能力更加强大。虽然RFID技术早已成熟,但是由于受到使用成本较高的限制,导致RFID技术没有被广泛
对沪车牌设置"警示价"拍卖以来的成交情况进行回溯分析,尤其是该政策实施以来所造成的社会负面影响进行反思,可以发现现行沪车牌设置"警示价"拍卖政策存在三个主要问题:一是
<正>策划人首先要对自己负责,才能对客户负责。没有小孩的人不能为儿童产品做策划,因为他没有为人父母的经验。没有喝过白酒的人不能为白酒做策划,因为他不知道喝多了是什么