基于云计算的数据挖掘平台架构及其关键技术探讨

来源 :科学与财富 | 被引量 : 0次 | 上传用户:a316529455
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着计算机技术的发展,基于云计算平台下的数据挖掘系统日趋完善,并为用户提供了更为便捷的服务。本文以云计算的数据挖掘平台架构设计与实现为切入点,对当前云计算环境下的数据挖掘系统的发展加以分析,希望对推动该技术的发展起到积极的作用。
  关键词:云计算;数据挖掘;大数据
  一、云计算数据挖掘系统架构设计的分析
  (一) 目标系统模型
  以云计算为前提所构建的目标系统模型所提供的服务界面更为透明,接口服务也更具有开放性。此时,用户可以通过终端访问的方式直接使用系统,还可以通过开放式接口实现对应用系统的间接访问。终端客户使用过程中不必考虑系统的存储能力,仅需考虑到算法的选择。使用结果就是将任务形式直接部署到相应的系统之中,以此获取所需的挖掘数据。同时,以云计算环境为条件的数据挖掘平台,都可以通过开放式接口与用户界面提供便捷的服务。
  (二) 功能层次框架设计
  1. 算法层
  算法层主要是通过对下层数据的调用,并通过相关算法实现有效地管理。由于运算方法存在执行顺序与结果存在较大的差异,需区别对待。以数据清洗算法为例,该方法挖掘噪声数据前,需对接口服务进行调用,然后对相关数据加以清洗,通过数据层存储于云计算平台,该步骤的重要作用是更好地服务于后续数据挖掘。数据挖掘调用服务,在应用该服务之前,将已清洗的及不需要清洗的数据利用数据挖掘技术统一对数据进行调用。
  2. 应用层
  与其他层相比,抽象性是应用层更为突出的特性。应用层主要是描述海量数据的挖掘、算法之间的冠以相关具体数据,还能直接为客户提供维护接口和调用服务。
  3. 用户层
  云计算的应用层通过友好用户界面直接提供了用户所需的相关服务和软件,主要为客户提供OA、CRM 和ERP 等相关服务(见图1) 。
  (三) 云计算机构设计的关键点
  1. 插件系统的设计
  插件程序是对相应的应用程序开发接口加以规范实现的。所有插件都是由扩展点、业务逻辑、调用下层扩展点这三部分组成的,以上三部分都是由相同的模块对绑定包加以管理。绑定包需具备规范要求,在特定目录下防止插件,可以及时识别并实现动态加载。此外,插件的算法是以满足算法为前提,而不仅局限于特定个数与排列数据,其兼容性的实现是以提供抽象数据为基础的。该算法除此之外,算法实现不同于以往针对特定个数、排列数据而实现。它是在满足实现算法的基础上,利用抽象数据提供更多的兼容性。
  2. 开放接口的设计
  在云计算平臺中,开放接口主要用于数据的使用。在使用过程中,我们可以充分挖掘出所需的数据资源。设计开放接口的前提是保证其具有相关性与高效性,无态型优势是平台接口(REST)
  最为主要的使用优势。在某一局域网之中,缓冲装置可实现重复调用。正是这种重复使用能提升服务器的吞吐量,最大限度的降低服务器的工作负担。
  (四) 云计算数据挖掘平台架构的实现
  1. 开发环境
  云计算的开发环境各不相同,但对环境的要求都是提供自动扩展与动态服务等方面,以Google为例,其开发环境为App Engine,如果计算过程中出现重载以及数据量剧增的情况,构造出的应用程序具有较强的安全性。
  2. 云计算数据平台架构的开发思想与技术
  ( 1) 原型开发模型
  该模型的开发是建立在快速分析的基础之上的,开发人与用户的有效沟通能够准确将系统需求加以定位,同时结合原型特征满足开发的目的;建构原型需结合认真的分析,进而建构出具有较高可行性的系统。为了保证支持技术的可靠性,需使用相应的软件工具,暂不对系统细节加以考虑; 为了保证原型运行通畅,设计人员需及时发现并解决问题; 考核原型特性的目的是将原型的运行效果与用户满意程度加以测评,如测评中发现错误,有新的客户需求,则需根据实际情况提出相应的修改建议。
  ( 2) 以WSGI 为前提的规范开发
  由于WSGI 规范基础上的开发优势明显,能够很好地实现系统可用性的提升、实现跨平台的操作可行性。因此,该方式较之传统的C /S 模块而言,具有使用上的便捷性。用户访问系统是通过浏览器实现的,还为用户提供了更多的选择。需注意的是,WSGI 规范的实现是以Python 语言环境为基础的,该语言具有跨平台的特点,这也增加了系统与云计算平台结合的便捷性。
  3. 开发步骤
  ( 1) 算法模块插件系统
  该系统的算法主要有数据挖掘算法、数据清洗算法、结果可视算法等。为了保证执行过程的完整性,需在不规则数据和原始数据集的前提下通过数据清洗算法统一整理数据集才能实现。此外,还可以通过异构和分布式中转数据源后生成较为规则的数据集。通过数据挖掘算法对规则数据进行处理,得到需要获取的信息,进而以可视的形式呈献给使用者。上述过程中,涉及到数据调用的都需以REST 接口实现,数据通过接口传递与转换的格式都为XML。由于多种算法模块的出现,促使云计算平台下的数据挖掘平台能够提供更多的实用功能。
  ( 2) 数据集访问模块
  数据集访问模块与算法模块有很多相同之处,例如: 插入方式与调用以及访问数据集时的调用状态都是一致的。不同之处在于,其在调用数据集访问模块之前,能够将数据实例文件自动加以分解,形成多个物理访问地址和元数据组,进而将参数传递至数据集访问模块。
  4. 云计算数据挖掘平台的架构
  ( 1) 系统构成
  用户交互、应用程序、数据挖掘与硬件服务等众多子系统构成了基于云计算的数据挖掘平台系统,通过终端设备进入互联网并与数据平台连接,进而实现数据挖掘的目的。上述几个子系统的有机组合能够很好地为用户提供数据,还能通过单独运行服务于用户。   ( 2) 用户交互子系统
  该系统是用户与平台之间的交互接口,在图形的形式下操作。其主要服务内容包括: 注册和注销、用户的授权申请、用户的身份验证、账户管理等。该系统不仅保证了平台的安全,有效地提供了用户入口。
  ( 3) 应用程序子系统
  作为数据挖掘和用户管理之间的衔接环节,应用程序子系统可以准确描述数据与算法、相互关系,并通过任务形式加以实现。其工作内容还包括: 用户的注册和注销、用户应用、调用服务于应用维护入口等功能。
  ( 4) 数据挖掘子系统
  该系统完成挖掘任务的基础是数据的计算及数据信息的处理。该系统的功能模块包括: 数据的挖掘和预处理、数据的评估、特殊化服务等。该系统对相应数据处理后,按照固定格式储存于数据库之中,并通过降噪处理满足不同用户的使用要求。
  二、基于云计算的数据挖掘平台构架的关键技术
  构建云计算数据挖掘是建立在分布式计算、并行与效用计算、网络存储、虚拟化、负载均衡、热备份冗余等网络计算机技术之上的,所涉及的主要技术有如下几方面。
  (一) 云计算技术
  1. 分布式储存技术
  为了保证云计算技术处理数据时的经济性与高可靠性,我们通常采用分布式存储的方式实现数据的存储。为了弥补硬件的不足,一般选用最为可靠的软件,正是在这种要求下,分布式存储技术不但能提供海量的数据挖掘支持,还具有非常廉价的经济优势。
  2. 虚拟化技术
  全面虚拟条件下的应用与整合可以保证在云计算的环境下,实现大量数据挖掘功能的实现。在虚拟化与云计算的组合作用下,资源调度能够实现数据挖掘通过跨系统整合,进而通过IT 资源汇合海量数据,并以动态的形式供给用户虚拟化的资源。这样能够保证服务任务具有海量动态的特点和高效率的优势。
  3. 并行云计算技术
  该技术与云计算技术并行,在执行数据挖掘和计算过程中具有很强的高效性,因此,该技术属于数据挖掘过程中的重要技术手段。该技术还能针对部分技术细节进行封装,如: 任务调度、并行、容错、数据分布等方面。由于该技术的功能打消了客户的顾虑,直接提高了研发的效率。
  (二) 數据汇集调度中心
  数据汇集调度中心主要作用在于能够针对不同类的数据加以汇集。同时,该技术也收集汇合了接入云计算数据挖掘平台的业务数据,有效地解决了因为数据不同而产生的数据相关规约问题,并在运行中支持各种源数据格式。
  (三) 服务调度与管理技术
  在云计算的数据挖掘平台下,为保证各种业务系统都能使用该平台,需提供必要的管理与调度功能。通过有效地管理与调度,保证各系统能够并行且互斥,还要实现系统间的隔离,这样才能确保平台在安全可靠的条件下服务于客户。服务调度与管理需满足统一服务注册以及支持第三方数据挖掘的功能,这样才能将平台的服务能力更好地加以扩展。
  参考文献
  [1] 陈康,郑纬民.云计算: 系统实例与研究现状[J].软件学报,2009,20( 5).
  [2] 2015 - 2020 年中国云计算产业发展前景与投资战略规划分析报告[R]. 2015.
  [3] 冯登国,张敏,张妍,等.云计算安全研究[J].软件学报,2011,22(1).
  [4] 庄福振.基于云计算的大数据挖掘平台[J].中兴通讯技术,2013,(19).
其他文献
摘 要:无人机遥感技术是一项由无人机与遥感器相结合的技术,该技术起源于二十世纪末,并在当时的航空技术中开辟了新的发展领域,吸引了大量研究学者参与至研究及技术开发当中。在这样的发展趋势下,无人机遥感技术开始广泛应用于多个领域,在我国当前的海事信息化、海洋权益保障等发挥着重要的应用价值,同时,无人机遥感技术还具有成本低、风险小等应用优势,受到我国多个行业领域的青睐。对此,本文针对关于无人机遥感的发展及
期刊
摘 要:当在聚合物基体中添加相应的导电粒子材料,例如炭黑、金属氧化物等可以制成具有PTC效应的有机PTC导电复合材料,即聚合物基PTC(Positive Temperature Cofficient)导电复合材料。这种材料的电阻能随着温度非线性变化,如当温度升高或降低时,该材料能自动的进行相应的自我调节,因此,该材料也被叫作“温度记忆材料”,目前该材料被广泛用于自调温加热器件、电磁屏蔽、过热保护等
期刊
摘 要:工业工程是通过减少成本浪费,高效地提高生政府管理、企业、医院等效率或效益,在目前中国越来越注重这一方面的人才,他们对事件不合理的地方进行多元统计,考虑人,成本等因素,在一系列相关统计数据的基础上,运用统计的模型,指标以及对应的分析手段,获得最可靠的结果,据此对事件进行合理有效的改善,挖掘人如何更好的工作,达到目标的最优,效益的最大化。可想而已,多元统计在工业工程改善中具有举足轻重的地位。 
期刊
摘 要:实拍影像作为被观众广为接受的主流影像,在当前具有其他影像效果无法比拟的优势。动画场景作为一部动画片中最主要的画面元素之一,不仅烘托故事氛围,衬托演员表演,推动剧情发展,还对整部动画片的画面效果起着决定性的作用。当前全球处在一个动画产业大发展的时代,为了寻求更好的创作效果,我们要不断研究好的艺术视觉媒介,为以后的动画创作打下有利的理论和实践经验。  关键词:动画;场景制作;实拍影像;应用研究
期刊
摘 要:在新兴科技飞速发展的今天,各种新型材料的出现使得更多的科技可以运用到我们的日常生活中,碳纤维复合材料就是其中表现突出的一种,本文就碳纤维复合材料在航模飞机上的运用进行了分析和研究,概述了碳纤维复合材料的一些优缺点,尤其是在航空领域上的各种应用。  关键词:碳纤维;应用;航模  前言  早在上个世纪中期,碳纤维复合材料就被人们作为一种新型的结构材料研发了出来,而随着科技的高速发展,碳纤维复合
期刊
摘 要:先对当前《钢结构》课程教学现状进行分析,结合当前社会需要及企业对钢结构专业人才的要求,遵循学生职业发展规律,对钢结构课程教学方法进行初步探索。  关键词:钢结构;教学现状;改革措施  Abstract:The first of the "Steel Structure" Course of the current status of the analysis, combined with
期刊
摘 要:针对传统的智能小车只有循迹、避障和超声波测距等简单功能且实际应用效果并不理想,本文设计实现了一种高效的无线视频监控智能小车。小车采用STM32主控芯片,集成多种高性能传感器,可以有效实现红外循迹、红外避障、自动跟随、边沿检测、超声波测距和超声波避障等多种功能。小车带有WIFI模块,可以利用Android客户端或PC客户端来实现小车的无线控制。试验表明,客户端采集到的视频画面较清晰,视频流传
期刊
摘 要:物流成本由包装、运输、储存、流通加工、物流信息等各个环节所支出的人力、物力和财力所组成。通过对构成物流活动的各项功能进行技术改善和有效管理,从而降低物流成本费用。  关键词:物流成本;绿色供应链;成本控制  1.引言  绿色供应链的概念建立、快速发展取决于环境问题的关注,公众意识、法律和环境标准的改进推动,在管理流程上包括绿色设计、绿色材料的选取、绿色生产、包装和运输、营销以及绿色回收七个
期刊
摘 要:随着计算机技术的快速发展,计算机图形图像处理技术也得到了相应的发展,目前在广告、摄像、工业等多个行业中计算机对图形图像的处理技术以及美化功能得到了广发的应用。本文在充分分析了计算机图形图像处理技术原理的基础上,对图形图像的处理以及图像美化的具体操作步骤进行了详尽的阐述,同时也对该技术的实际应用情况加以分析和说明。  关键词:计算机图形图像;后期处理;图像美化;计算机技术  借助计算机技术及
期刊
摘 要:自2014年习近平总书记第一次提及“新常态”以来,“新常态”就成为中央对我国当前经济发展阶段的重大战略评判。经济新常态下,我国绝大多数企业受到种种因素的影响,并没有把实施绿色营销作为企业发展的当务之急。本文在分析我国企业在新常态下的绿色营销现状的基础上,提出了推动企业绿色营销发展的对策。  关键词:新常态;绿色营销;问题;对策  一、新常态与绿色营销的语境解析  2008年国际金融危机以来
期刊