基于Spark MLlib统一数据挖掘服务平台的研究与实现

来源 :福州大学 | 被引量 : 3次 | 上传用户:qq1036191963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今互联网信息技术发展越来越快,在短短的几秒时间内积累的数据量已经远远超过GB级别,存储设备的需求从TB级别急速上升到PB级别。为了满足在如此大的数据量中挖掘潜在的商业价值,并且能够使这些数据价值得到体现,人们可以运用数据挖掘算法进行数据分析,从而得到想要的结果。在几十GB级以内的数据量上,传统的单机挖掘是可以做到很好的解决,但是要在上百GB级以上的大数据上运行算法,这无疑是一件很困难的事情,传统方法要消耗很大的服务器计算资源,花大量的时间来运行这些算法,在执行性能效率等问题上都会遇到瓶颈。近年来新兴的大数据处理的引擎Apache Spark框架,在大数据集的处理能力已经得到了多家实验机构的多次验证,和传统数据挖掘方法无法处理海量数据相比,Spark适用于多种不同的分布式平台,可以简单低耗地把各种处理流程整合在一起。本文提出了一种以Spark MLlib为基础的统一数据挖掘服务平台,本文的主要工作如下:1、基于Spark和Hadoop框架的平台分层设计以及各层设计,在已有的OpenStack平台上搭建集群环境,实现分布式并行计算的资源分配管理。各层设计的实现从底层到上层分别为:通信层,云基础层,分析挖掘层,可视化层。2、通信层为各设备的采集层,平台通过对外开放数据接收接口实现数据的采集。云基础层是在基于OpenStack虚拟云平台,搭建Spark集群以及YARN等资源管理器,为分布式计算和存储提供了底层资源。3、挖掘层设计包括了工作流管理模块,数据预处理模块,批量数据挖掘,实时数据挖掘,统一挖掘接口设计模块等,该模块通过用maven项目管理进行后台分层设计,同时采用多种面向对象设计模式,以便满足平台的可扩展性,接口隔离等原则。基于MLlib的机器学习算法进行可配置化,透明化,并采用适配器模式进行统一接口化。4、提供对外的统一接口,并对外发布统一接口服务,以便于第三方调用,包括从http接口,webservice接口,远程RMI调用,管理控制台端口等方式进行数据传输。此外,提供的可视化层在Web端提供一个可视化的流程设计界面,能快速、高效的设计出数据分析挖掘的流程,并根据流程执行挖掘流程。
其他文献
用改进的溶胶-凝胶工艺制备Ba0.6Sr0.4TiO3(BST)陶瓷及厚膜,研究它们的结晶情况与电学性能.在这种改进的工艺中,将经高能球磨制备的纳米BST陶瓷粉体加入到同组分的BST的溶胶
文[1][2]分别给出了轮图和齿轮图的优美性,本文证明了在齿轮图Wn(n为奇数)每个齿的顶端联结k条长度为1的边所得图是优美的,从而得到文[3]所提猜想的一个结果。
在对Ti-Al-O-N体系热力学分析的基础上合成了AlON-TiN复相材料, XRD, TEM分析与观测结果证实了热力学分析的可靠性. 运用人工神经元网络(artificial neural networks, ANN)对
遥感 (RS)和地理信息系统 (GIS)均为新型的高新技术 ,地理信息系统是采集、存储、管理、分析和应用空间信息系统的计算机系统 ,遥感则以空间特性、光谱特性和时相特性为 GIS提供大量科学依据与资料。RS和GIS的应用引入水资源的可持续利用方面是有着巨大的潜力
2017年6月21日,合阳-铜川、吴起-华池高速公路开工动员会在铜川举行。
介绍了在近海岩层地基条件下,大连绿地中心(北区)项目超大深基坑支护体系的比选。根据背景工程及现场工程地质情况,详细分析了超大深基坑常采用的钢筋混凝土与预应力锚索支撑体
介绍了具有ns2np1电子构型的金属离子(原子)掺杂玻璃,过渡金属离子掺杂微晶玻璃和半导体量子点等在近红外光通讯波段具有超宽带发光的新型发光材料.具有ns2np1电子构型的铋掺杂
目的探讨四肢开放性骨折早期急救及术后中西医结合护理的效果。方法回顾性分析了本科2008年1月-2010年8月共212例四肢开、放性骨折的临床资料。结果愈合康复的效果良好。结论
利用溶胶-凝胶方法制备了BaTiO3凝胶, 然后经过不同的退火处理, 制备了BaTiO3微晶陶瓷.XRD证实了在1 100 ℃, BaTiO3微晶存在明显的四方相.利用热力学分析的差减微分方程和非
研究了添加1%Al2O3(摩尔分数)和前驱体'清除'晶界杂质两种改善晶界导电性能的方法,对四方氧化锆(3%Y2O3-doped tetragonal zirconia,3YTZ)陶瓷烧结体的导电性能的影