基于云计算的数据挖掘平台构建研究

来源 :大科技·D版 | 被引量 : 0次 | 上传用户:chinafeed
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:近年来互联网技术的快速发展,特别是随着云计算、大数据、物联网等技术的日趋成熟,我们已经进入了大数据时代。数据的挖掘应用,将对人们生产、生活产生巨大影响,基于云计算的数据挖掘平台较传统的数据挖掘系统有较大优势,基于此,本文简单分析了基于云计算的数据挖掘平台架构,并详细论述了基于云计算数据挖掘平台的关键技术,希望由此能够为相关业内人士带来一定启发。
  关键词:云计算;数据挖掘平台;挖掘算法并行化技术
  中图分类号:TP311.13 文献标识码:A 文章编号:1004-7344(2018)18-0315-02
  前 言
  满足数据挖掘需求、保证平台实时性和可交互性、实现数据资源高效运用均属于基于云计算数据挖掘平台建构的主要需求,这些需求的真正满足便需要得到合理架构与相关技术的支持,而为了最大化基于云计算数据挖掘平台效用发挥、实现数据挖掘平台的更广泛应用,正是本文围绕该课题开展具体研究的原因所在。
  1 基于云计算的数据挖掘平台架构
  1.1 基本设计
  图1、图2分别为基于云计算的数据挖掘平台总体架构、基于云计算的数据挖掘平台具体架构,相较于传统的数据挖掘平台,云计算技术的引入实现了挖掘能力的提升。在基于云计算的数据挖掘平台设计中,采用了分层设计思想和面向组件的设计思路,设计在总体上分为三层,自上而下依次为数据挖掘云服务层、数据挖掘能力层、云计算支撑平台层,由此即可实现系统监控、资源调度、资源管理、资源安全四方面运维管理服务的提供[1]。
  1.2 层级划分
  为更深入了解本文设计的基于云计算数据挖掘平台,本文将对该平台架构层级划分进行详细介绍,具体层级划分如下所示:①数据挖掘云服务层。该层主要负责对外提供数据挖掘云服务,为保证服务质量,采用了多样的服务能力分钟接口形式,主要包括本地应用程序编程接口(API)、HTTP、XML、Webservice、Restful、对象访问协议(SOAP)等多种形式,数据挖掘云服务层还能够同时支持结构化查询语言(SQL)语句的访问,且在此基础上还能够实现云服务的自动调用(在解析引擎基础上)。此外,各个业务系统还能够根据业务、数据实现数据挖掘云服务的组装和调用。②数据挖掘能力层。该层主要负责数据挖掘的基础能力,数据挖掘云服务层功能的实现便需要得到能力层的支持,数据并行处理框架、算法服务管理属于数据挖掘能力层的主要构成。值得注意的是,为提升数据挖掘平台潜力,采用了能够支持第三方挖掘算法工具接入的数据挖掘能力层设计,如Mathout、Weka等分布式算法库,同时也能够提供內部推荐算法库和数据挖掘算法。③云计算支撑平台层。该层主要提供数据库存储、分布式文件存储以及计算能力,本文研究的基于云计算数据挖掘平台可配合企业自主研发的云计算平台使用,也可以使用中兴通讯等第三方提供的云计算平台[2]。
  1.3 实现思路
  为更直观了解本文研究的云计算数据挖掘平台,笔者还将简单介绍该平台的实现思路,数据挖掘平台数据库优化、XML文件挖掘系统建立、数据挖掘明确化均属于其中关键,具体思路如下所示:①数据挖掘平台数据库优化。需关注维护数据可用性、关系数据库、数据关联配置实现数据挖掘平台数据库优化,维护数据可用性需进行数据结构化式的资源处理,关系数据库则的应用则主要负责SCL配置文件的数据建模,数据关联配置则需要借助数据库相关技术,通过映射关系转换SCL配置文件属于其中关键。②XML文件挖掘系统建立。需开展XML挖掘部分的优化,以此实现该部分架构的优化,这一过程需基于云计算方法建立编程对象模型。③数据挖掘步骤。具体的数据挖掘步骤可描述为:“确定数据挖掘的主题→处理相关数据→建立数据挖掘模型→评价数据挖掘模型”,通过反复开展的模型建立、评价,即可实现高质量的数据挖掘,这一过程中需得到商业挖掘工具的支持,将所需要的数据资源分配给相应客户功能也将由此得以实现,基于云计算的数据挖掘平台数据挖掘效率将因此处于较高水平。
  2 基于云计算数据挖掘平台的关键技术
  相较于传统的数据挖掘平台架构,基于云计算的数据挖掘平台架构在可扩展性、海量数据处理、成本与服务等层面均存在显著优势,并能够支持大范围分布式数据挖掘的设计和应用,这主要是由于云计算技术能够构建高吞吐量的云计算系统,计算策略由HPC向HTC的转变也源于云计算系统的广泛应用影响,而对于本文研究的云计算数据挖掘平台来说,其功能的实现必须得到云计算技术、服务管理和服务调度技术、挖掘算法并行化技术的支持,因此本文对这类技术进行了较为深入的阐述。
  2.1 分布式计算
  作为实现海量数据挖掘的有效手段,分布式计算属于本文研究的中心,其在数据挖掘平台中的应用已经获得了理论和实践的认可。分布式计算由并行计算和分布式存储组成,云计算平台则提供实现分布式计算的计算能力。Kosmos文件系统、Hadoop分布式文件系统、Google文件系统均属于业界较为常见的分布式文件系统,Google提出的分布式文件系统理论则属于三种分布式文件系统的源头。此外,Map Reduce、Pregel两种典型的分布式计算框架同样在基于云计算的数据挖掘平台中发挥着关键性作用,其中Map Reduce属于并行计算框架,主要用于搜索、数据仓库、数据挖掘领域,而Pregel则属于迭代处理计算框架,主要用于疾病爆发路径、交通线路、WEB搜索等领域,由此数据挖掘任务的完成便无需考虑数据分布、任务调度、任务并行、任务容错、负载平衡、系统容错等细节,平台维护成本降低、研发效率提升均将由此实现[3]。
  2.2 服务管理和服务调度技术
  服务管理和服务调度技术同样属于基于云计算数据挖掘平台的关键技术组成,该技术主要负责提供服务管理和服务调度功能。其中,服务管理功能主要负责服务注册、服务暴露等功能的统一,并能够实现本地服务能力暴露、第三方数据挖掘能力的接入,数据挖掘平台服务能力由此即可实现较好扩展;服务调度功能作用发挥则需要关注服务和资源匹配情况、服务优先级,服务的隔离、并行互斥可由此解决,数据挖掘平台云服务的可靠、安全也将由此得到保障。   2.3 挖掘算法并行化技术
  挖掘算法并行技术属于本文研究的核心,云计算平台基础能力的利用需要得到挖掘算法并行化技术的支持,算法并行、策略选择均会因此受到影响,为直观展示挖掘算法并行化技术,本文将使用K-means聚类算法并行化Map Reduce并行计算框架进行该技术的介绍,由此也能够更深入了解本文研究的云计算数据挖掘平台。其中,K-means聚类算法的基本理念可以概括为聚类性能指标最小化,而进行最小化处理聚类集中每一样本点到类簇中心点距离平方之和,即可获得聚类准则函数,K-means聚类算法的流程可以描述为:“开始→从数据集中随机选取k个样本作为聚类中心→将每一个样本聚类到离自己最近的k个样本之一→计算每一个聚类均值→使用计算得出的均值替换原有聚类中心→聚类中心未改变→结束”,如该流程中替换原有聚类中心导致聚类中心改变,便需要重新回到第三步骤,由此不断重复即可最终完成准则函数收敛,一般情况会采用平方误差准则,即:
  E=p-m
  其中E、p、Ci、mi分别为数据集中所有对象的平方误差、空间中的点、簇、Ci的均值,基于该公式不难发现,每个簇中的每个对象,必须在求和前首先求出对象到其簇中心的均值的平方。
  简单了解K-means聚类算法后,即可介绍该算法的并行化思路。K-means聚类算法的聚类划分需围绕聚类中心进行,因此本文主要介绍聚类中心的并行更新。在随机的初始化k个聚类中心后,当前k个聚类中心的值会在每一次任务的执行后更新,而在Mapper(映射)阶段,每个样本Os均需要进行最近聚类中心Oi的计算,由此即可输出,其中0≤i≤k-1;而在Reducer(化简)阶段,Map Reduce框架会进行相同键值的收集,离着最近的样本也会作为值进行收集,这样Reducer即可实现k个聚类中心的重新估计,上述样本属于该环节的关键,这一过程的计算可描述为:
  Oi=
  由此,在一轮Map Reduce结束后,便能够完成新的聚类中心计算,而通过对比上一轮聚类中心与本轮聚类中心差异度,即可确定算法是否收敛。
  3 结 论
  综上所述,基于云计算的数据挖掘平台具备较高推广潜力,在此基础上,本文涉及的数据挖掘平台数据库优化、数据挖掘步骤、服务管理和服务调度技术、挖掘算法并行化技术等内容,则提供了可行性较高的云计算数据挖掘平台建设路径,而为了进一步提高平台功能,内部数据挖掘私有云的建设、数据挖掘平台的SaaS化均需要得到业界人士的关注。
  参考文献
  [1]曾 俊.一種基于Hadoop架构的并行挖掘算法研究[J].现代电子技术,2018,4101:117~119+124.
  [2]赵 芬,张丽云,赵苗苗.生态环境大数据平台架构和技术初探[J].生态学杂志,2017,3603:824~832.
  [3]刘建东.云计算下数据挖掘平台架构及其关键技术的探索[J].科技与创新,2017,06:128+132.
  收稿日期:2018-6-11
  作者简介:谢天杰(1986-),男,本科,主要从事信息技术工作。
  谭思敏(1988-),女,本科,主要从事标准化工作。
其他文献
摘 要:本文首先介绍了通信传输技术在日常生活中的作用,然后介绍了通信管线传输工程的特点,最后详细介绍了工程质量安全管理。供相关人员从参考。  关键词:通信管线传输;工程安全;管理  中图分类号:TN313.3 文献标识码:A 文章编号:1004-7344(2018)18-0317-02  前 言  当今时代经济、科技快速发展,通信传输技术为人们的生活和生产提供了方便,保证了人们生产和生活的基础。因
本文首次提出了对混合电动汽车的技术经济性分析。首先结合了大批量生产的传统车辆的制造和零售成本结构,给出混合动力车辆(HEV)中各种零部件的成本。介绍了电动车辆不同批量
内部布置在汽车车身设计中至关重要。它直接影响到车辆的安全性、操纵性和舒适性。同时内部布置是否符合要求在很大程度上也决定了用户对车辆的评价。在汽车内部布置的设计过
工程图样计算机理解,是一个工程图学、计算机图形学、认知科学、信息科学以及计算机辅助设计技术等多个研究领域相互交叉的课题,在CAD/CAM领域中具有广阔的应用前景。分析这一研究领域的现状,然而迄今为止的许多方法离实用目标还有相当的距离。本文从信息量化的角度,提出了图样信息编码技术并将其应用到图样理解中,使得图样理解更好地集成计算机数值运算的优点,为工程图样智能理解提供一条新的解决途径。 第一章
本文结合东风朝阳柴油机有限公司的CY4102EZLQ 开发项目,进行了供油系统及其与柴油机匹配的试验研究。试验方法和主要试验内容:试验在一台CY4102EZLQ 柴油机上进行,柴油机已经过
搬运机器人(Transfer Robot)是通过人类手动控制或者根据用户规定的动作自动控制来进行货物自动化搬运作业的机器人。现有的搬运机器人的末端执行器多是手抓(气动或液动)、吸
本文对准时化生产在电力工程施工中的应用进行了研究。文章分析了电力工程的特点和施工管理现状,阐述了JIT的基本思想,探讨了JIT的模式,分析了JIT在电力工程中应用的可能性,设计
生产设备是制造业的核心制造资源。随着科学技术的发展,制造业的生产设备的品种和数量越来越多,设备自动化程度越来越高,设备相关的信息和数据越来越庞杂,因而,设备管理也向
随着国防工业、模具加工和刀具制造业的高速发展,我国每年都需花费巨资进口200-300余台精密光学轮廓磨床或工具磨床以及各种多功能复杂曲面磨床,用于民用和军用模具、复杂曲
本次研究的新型气垫带式散粮装船机是辽宁省营口鲅鱼圈港区散粮中转设施工程装卸船系统,结合业主的要求及码头泊位的实际情况,在考察、调研的基础上,综合国内、外散粮装船机