论文部分内容阅读
摘 要:近年来互联网技术的快速发展,特别是随着云计算、大数据、物联网等技术的日趋成熟,我们已经进入了大数据时代。数据的挖掘应用,将对人们生产、生活产生巨大影响,基于云计算的数据挖掘平台较传统的数据挖掘系统有较大优势,基于此,本文简单分析了基于云计算的数据挖掘平台架构,并详细论述了基于云计算数据挖掘平台的关键技术,希望由此能够为相关业内人士带来一定启发。
关键词:云计算;数据挖掘平台;挖掘算法并行化技术
中图分类号:TP311.13 文献标识码:A 文章编号:1004-7344(2018)18-0315-02
前 言
满足数据挖掘需求、保证平台实时性和可交互性、实现数据资源高效运用均属于基于云计算数据挖掘平台建构的主要需求,这些需求的真正满足便需要得到合理架构与相关技术的支持,而为了最大化基于云计算数据挖掘平台效用发挥、实现数据挖掘平台的更广泛应用,正是本文围绕该课题开展具体研究的原因所在。
1 基于云计算的数据挖掘平台架构
1.1 基本设计
图1、图2分别为基于云计算的数据挖掘平台总体架构、基于云计算的数据挖掘平台具体架构,相较于传统的数据挖掘平台,云计算技术的引入实现了挖掘能力的提升。在基于云计算的数据挖掘平台设计中,采用了分层设计思想和面向组件的设计思路,设计在总体上分为三层,自上而下依次为数据挖掘云服务层、数据挖掘能力层、云计算支撑平台层,由此即可实现系统监控、资源调度、资源管理、资源安全四方面运维管理服务的提供[1]。
1.2 层级划分
为更深入了解本文设计的基于云计算数据挖掘平台,本文将对该平台架构层级划分进行详细介绍,具体层级划分如下所示:①数据挖掘云服务层。该层主要负责对外提供数据挖掘云服务,为保证服务质量,采用了多样的服务能力分钟接口形式,主要包括本地应用程序编程接口(API)、HTTP、XML、Webservice、Restful、对象访问协议(SOAP)等多种形式,数据挖掘云服务层还能够同时支持结构化查询语言(SQL)语句的访问,且在此基础上还能够实现云服务的自动调用(在解析引擎基础上)。此外,各个业务系统还能够根据业务、数据实现数据挖掘云服务的组装和调用。②数据挖掘能力层。该层主要负责数据挖掘的基础能力,数据挖掘云服务层功能的实现便需要得到能力层的支持,数据并行处理框架、算法服务管理属于数据挖掘能力层的主要构成。值得注意的是,为提升数据挖掘平台潜力,采用了能够支持第三方挖掘算法工具接入的数据挖掘能力层设计,如Mathout、Weka等分布式算法库,同时也能够提供內部推荐算法库和数据挖掘算法。③云计算支撑平台层。该层主要提供数据库存储、分布式文件存储以及计算能力,本文研究的基于云计算数据挖掘平台可配合企业自主研发的云计算平台使用,也可以使用中兴通讯等第三方提供的云计算平台[2]。
1.3 实现思路
为更直观了解本文研究的云计算数据挖掘平台,笔者还将简单介绍该平台的实现思路,数据挖掘平台数据库优化、XML文件挖掘系统建立、数据挖掘明确化均属于其中关键,具体思路如下所示:①数据挖掘平台数据库优化。需关注维护数据可用性、关系数据库、数据关联配置实现数据挖掘平台数据库优化,维护数据可用性需进行数据结构化式的资源处理,关系数据库则的应用则主要负责SCL配置文件的数据建模,数据关联配置则需要借助数据库相关技术,通过映射关系转换SCL配置文件属于其中关键。②XML文件挖掘系统建立。需开展XML挖掘部分的优化,以此实现该部分架构的优化,这一过程需基于云计算方法建立编程对象模型。③数据挖掘步骤。具体的数据挖掘步骤可描述为:“确定数据挖掘的主题→处理相关数据→建立数据挖掘模型→评价数据挖掘模型”,通过反复开展的模型建立、评价,即可实现高质量的数据挖掘,这一过程中需得到商业挖掘工具的支持,将所需要的数据资源分配给相应客户功能也将由此得以实现,基于云计算的数据挖掘平台数据挖掘效率将因此处于较高水平。
2 基于云计算数据挖掘平台的关键技术
相较于传统的数据挖掘平台架构,基于云计算的数据挖掘平台架构在可扩展性、海量数据处理、成本与服务等层面均存在显著优势,并能够支持大范围分布式数据挖掘的设计和应用,这主要是由于云计算技术能够构建高吞吐量的云计算系统,计算策略由HPC向HTC的转变也源于云计算系统的广泛应用影响,而对于本文研究的云计算数据挖掘平台来说,其功能的实现必须得到云计算技术、服务管理和服务调度技术、挖掘算法并行化技术的支持,因此本文对这类技术进行了较为深入的阐述。
2.1 分布式计算
作为实现海量数据挖掘的有效手段,分布式计算属于本文研究的中心,其在数据挖掘平台中的应用已经获得了理论和实践的认可。分布式计算由并行计算和分布式存储组成,云计算平台则提供实现分布式计算的计算能力。Kosmos文件系统、Hadoop分布式文件系统、Google文件系统均属于业界较为常见的分布式文件系统,Google提出的分布式文件系统理论则属于三种分布式文件系统的源头。此外,Map Reduce、Pregel两种典型的分布式计算框架同样在基于云计算的数据挖掘平台中发挥着关键性作用,其中Map Reduce属于并行计算框架,主要用于搜索、数据仓库、数据挖掘领域,而Pregel则属于迭代处理计算框架,主要用于疾病爆发路径、交通线路、WEB搜索等领域,由此数据挖掘任务的完成便无需考虑数据分布、任务调度、任务并行、任务容错、负载平衡、系统容错等细节,平台维护成本降低、研发效率提升均将由此实现[3]。
2.2 服务管理和服务调度技术
服务管理和服务调度技术同样属于基于云计算数据挖掘平台的关键技术组成,该技术主要负责提供服务管理和服务调度功能。其中,服务管理功能主要负责服务注册、服务暴露等功能的统一,并能够实现本地服务能力暴露、第三方数据挖掘能力的接入,数据挖掘平台服务能力由此即可实现较好扩展;服务调度功能作用发挥则需要关注服务和资源匹配情况、服务优先级,服务的隔离、并行互斥可由此解决,数据挖掘平台云服务的可靠、安全也将由此得到保障。 2.3 挖掘算法并行化技术
挖掘算法并行技术属于本文研究的核心,云计算平台基础能力的利用需要得到挖掘算法并行化技术的支持,算法并行、策略选择均会因此受到影响,为直观展示挖掘算法并行化技术,本文将使用K-means聚类算法并行化Map Reduce并行计算框架进行该技术的介绍,由此也能够更深入了解本文研究的云计算数据挖掘平台。其中,K-means聚类算法的基本理念可以概括为聚类性能指标最小化,而进行最小化处理聚类集中每一样本点到类簇中心点距离平方之和,即可获得聚类准则函数,K-means聚类算法的流程可以描述为:“开始→从数据集中随机选取k个样本作为聚类中心→将每一个样本聚类到离自己最近的k个样本之一→计算每一个聚类均值→使用计算得出的均值替换原有聚类中心→聚类中心未改变→结束”,如该流程中替换原有聚类中心导致聚类中心改变,便需要重新回到第三步骤,由此不断重复即可最终完成准则函数收敛,一般情况会采用平方误差准则,即:
E=p-m
其中E、p、Ci、mi分别为数据集中所有对象的平方误差、空间中的点、簇、Ci的均值,基于该公式不难发现,每个簇中的每个对象,必须在求和前首先求出对象到其簇中心的均值的平方。
简单了解K-means聚类算法后,即可介绍该算法的并行化思路。K-means聚类算法的聚类划分需围绕聚类中心进行,因此本文主要介绍聚类中心的并行更新。在随机的初始化k个聚类中心后,当前k个聚类中心的值会在每一次任务的执行后更新,而在Mapper(映射)阶段,每个样本Os均需要进行最近聚类中心Oi的计算,由此即可输出,其中0≤i≤k-1;而在Reducer(化简)阶段,Map Reduce框架会进行相同键值的收集,离着最近的样本也会作为值进行收集,这样Reducer即可实现k个聚类中心的重新估计,上述样本属于该环节的关键,这一过程的计算可描述为:
Oi=
由此,在一轮Map Reduce结束后,便能够完成新的聚类中心计算,而通过对比上一轮聚类中心与本轮聚类中心差异度,即可确定算法是否收敛。
3 结 论
综上所述,基于云计算的数据挖掘平台具备较高推广潜力,在此基础上,本文涉及的数据挖掘平台数据库优化、数据挖掘步骤、服务管理和服务调度技术、挖掘算法并行化技术等内容,则提供了可行性较高的云计算数据挖掘平台建设路径,而为了进一步提高平台功能,内部数据挖掘私有云的建设、数据挖掘平台的SaaS化均需要得到业界人士的关注。
参考文献
[1]曾 俊.一種基于Hadoop架构的并行挖掘算法研究[J].现代电子技术,2018,4101:117~119+124.
[2]赵 芬,张丽云,赵苗苗.生态环境大数据平台架构和技术初探[J].生态学杂志,2017,3603:824~832.
[3]刘建东.云计算下数据挖掘平台架构及其关键技术的探索[J].科技与创新,2017,06:128+132.
收稿日期:2018-6-11
作者简介:谢天杰(1986-),男,本科,主要从事信息技术工作。
谭思敏(1988-),女,本科,主要从事标准化工作。
关键词:云计算;数据挖掘平台;挖掘算法并行化技术
中图分类号:TP311.13 文献标识码:A 文章编号:1004-7344(2018)18-0315-02
前 言
满足数据挖掘需求、保证平台实时性和可交互性、实现数据资源高效运用均属于基于云计算数据挖掘平台建构的主要需求,这些需求的真正满足便需要得到合理架构与相关技术的支持,而为了最大化基于云计算数据挖掘平台效用发挥、实现数据挖掘平台的更广泛应用,正是本文围绕该课题开展具体研究的原因所在。
1 基于云计算的数据挖掘平台架构
1.1 基本设计
图1、图2分别为基于云计算的数据挖掘平台总体架构、基于云计算的数据挖掘平台具体架构,相较于传统的数据挖掘平台,云计算技术的引入实现了挖掘能力的提升。在基于云计算的数据挖掘平台设计中,采用了分层设计思想和面向组件的设计思路,设计在总体上分为三层,自上而下依次为数据挖掘云服务层、数据挖掘能力层、云计算支撑平台层,由此即可实现系统监控、资源调度、资源管理、资源安全四方面运维管理服务的提供[1]。
1.2 层级划分
为更深入了解本文设计的基于云计算数据挖掘平台,本文将对该平台架构层级划分进行详细介绍,具体层级划分如下所示:①数据挖掘云服务层。该层主要负责对外提供数据挖掘云服务,为保证服务质量,采用了多样的服务能力分钟接口形式,主要包括本地应用程序编程接口(API)、HTTP、XML、Webservice、Restful、对象访问协议(SOAP)等多种形式,数据挖掘云服务层还能够同时支持结构化查询语言(SQL)语句的访问,且在此基础上还能够实现云服务的自动调用(在解析引擎基础上)。此外,各个业务系统还能够根据业务、数据实现数据挖掘云服务的组装和调用。②数据挖掘能力层。该层主要负责数据挖掘的基础能力,数据挖掘云服务层功能的实现便需要得到能力层的支持,数据并行处理框架、算法服务管理属于数据挖掘能力层的主要构成。值得注意的是,为提升数据挖掘平台潜力,采用了能够支持第三方挖掘算法工具接入的数据挖掘能力层设计,如Mathout、Weka等分布式算法库,同时也能够提供內部推荐算法库和数据挖掘算法。③云计算支撑平台层。该层主要提供数据库存储、分布式文件存储以及计算能力,本文研究的基于云计算数据挖掘平台可配合企业自主研发的云计算平台使用,也可以使用中兴通讯等第三方提供的云计算平台[2]。
1.3 实现思路
为更直观了解本文研究的云计算数据挖掘平台,笔者还将简单介绍该平台的实现思路,数据挖掘平台数据库优化、XML文件挖掘系统建立、数据挖掘明确化均属于其中关键,具体思路如下所示:①数据挖掘平台数据库优化。需关注维护数据可用性、关系数据库、数据关联配置实现数据挖掘平台数据库优化,维护数据可用性需进行数据结构化式的资源处理,关系数据库则的应用则主要负责SCL配置文件的数据建模,数据关联配置则需要借助数据库相关技术,通过映射关系转换SCL配置文件属于其中关键。②XML文件挖掘系统建立。需开展XML挖掘部分的优化,以此实现该部分架构的优化,这一过程需基于云计算方法建立编程对象模型。③数据挖掘步骤。具体的数据挖掘步骤可描述为:“确定数据挖掘的主题→处理相关数据→建立数据挖掘模型→评价数据挖掘模型”,通过反复开展的模型建立、评价,即可实现高质量的数据挖掘,这一过程中需得到商业挖掘工具的支持,将所需要的数据资源分配给相应客户功能也将由此得以实现,基于云计算的数据挖掘平台数据挖掘效率将因此处于较高水平。
2 基于云计算数据挖掘平台的关键技术
相较于传统的数据挖掘平台架构,基于云计算的数据挖掘平台架构在可扩展性、海量数据处理、成本与服务等层面均存在显著优势,并能够支持大范围分布式数据挖掘的设计和应用,这主要是由于云计算技术能够构建高吞吐量的云计算系统,计算策略由HPC向HTC的转变也源于云计算系统的广泛应用影响,而对于本文研究的云计算数据挖掘平台来说,其功能的实现必须得到云计算技术、服务管理和服务调度技术、挖掘算法并行化技术的支持,因此本文对这类技术进行了较为深入的阐述。
2.1 分布式计算
作为实现海量数据挖掘的有效手段,分布式计算属于本文研究的中心,其在数据挖掘平台中的应用已经获得了理论和实践的认可。分布式计算由并行计算和分布式存储组成,云计算平台则提供实现分布式计算的计算能力。Kosmos文件系统、Hadoop分布式文件系统、Google文件系统均属于业界较为常见的分布式文件系统,Google提出的分布式文件系统理论则属于三种分布式文件系统的源头。此外,Map Reduce、Pregel两种典型的分布式计算框架同样在基于云计算的数据挖掘平台中发挥着关键性作用,其中Map Reduce属于并行计算框架,主要用于搜索、数据仓库、数据挖掘领域,而Pregel则属于迭代处理计算框架,主要用于疾病爆发路径、交通线路、WEB搜索等领域,由此数据挖掘任务的完成便无需考虑数据分布、任务调度、任务并行、任务容错、负载平衡、系统容错等细节,平台维护成本降低、研发效率提升均将由此实现[3]。
2.2 服务管理和服务调度技术
服务管理和服务调度技术同样属于基于云计算数据挖掘平台的关键技术组成,该技术主要负责提供服务管理和服务调度功能。其中,服务管理功能主要负责服务注册、服务暴露等功能的统一,并能够实现本地服务能力暴露、第三方数据挖掘能力的接入,数据挖掘平台服务能力由此即可实现较好扩展;服务调度功能作用发挥则需要关注服务和资源匹配情况、服务优先级,服务的隔离、并行互斥可由此解决,数据挖掘平台云服务的可靠、安全也将由此得到保障。 2.3 挖掘算法并行化技术
挖掘算法并行技术属于本文研究的核心,云计算平台基础能力的利用需要得到挖掘算法并行化技术的支持,算法并行、策略选择均会因此受到影响,为直观展示挖掘算法并行化技术,本文将使用K-means聚类算法并行化Map Reduce并行计算框架进行该技术的介绍,由此也能够更深入了解本文研究的云计算数据挖掘平台。其中,K-means聚类算法的基本理念可以概括为聚类性能指标最小化,而进行最小化处理聚类集中每一样本点到类簇中心点距离平方之和,即可获得聚类准则函数,K-means聚类算法的流程可以描述为:“开始→从数据集中随机选取k个样本作为聚类中心→将每一个样本聚类到离自己最近的k个样本之一→计算每一个聚类均值→使用计算得出的均值替换原有聚类中心→聚类中心未改变→结束”,如该流程中替换原有聚类中心导致聚类中心改变,便需要重新回到第三步骤,由此不断重复即可最终完成准则函数收敛,一般情况会采用平方误差准则,即:
E=p-m
其中E、p、Ci、mi分别为数据集中所有对象的平方误差、空间中的点、簇、Ci的均值,基于该公式不难发现,每个簇中的每个对象,必须在求和前首先求出对象到其簇中心的均值的平方。
简单了解K-means聚类算法后,即可介绍该算法的并行化思路。K-means聚类算法的聚类划分需围绕聚类中心进行,因此本文主要介绍聚类中心的并行更新。在随机的初始化k个聚类中心后,当前k个聚类中心的值会在每一次任务的执行后更新,而在Mapper(映射)阶段,每个样本Os均需要进行最近聚类中心Oi的计算,由此即可输出,其中0≤i≤k-1;而在Reducer(化简)阶段,Map Reduce框架会进行相同键值的收集,离着最近的样本也会作为值进行收集,这样Reducer即可实现k个聚类中心的重新估计,上述样本属于该环节的关键,这一过程的计算可描述为:
Oi=
由此,在一轮Map Reduce结束后,便能够完成新的聚类中心计算,而通过对比上一轮聚类中心与本轮聚类中心差异度,即可确定算法是否收敛。
3 结 论
综上所述,基于云计算的数据挖掘平台具备较高推广潜力,在此基础上,本文涉及的数据挖掘平台数据库优化、数据挖掘步骤、服务管理和服务调度技术、挖掘算法并行化技术等内容,则提供了可行性较高的云计算数据挖掘平台建设路径,而为了进一步提高平台功能,内部数据挖掘私有云的建设、数据挖掘平台的SaaS化均需要得到业界人士的关注。
参考文献
[1]曾 俊.一種基于Hadoop架构的并行挖掘算法研究[J].现代电子技术,2018,4101:117~119+124.
[2]赵 芬,张丽云,赵苗苗.生态环境大数据平台架构和技术初探[J].生态学杂志,2017,3603:824~832.
[3]刘建东.云计算下数据挖掘平台架构及其关键技术的探索[J].科技与创新,2017,06:128+132.
收稿日期:2018-6-11
作者简介:谢天杰(1986-),男,本科,主要从事信息技术工作。
谭思敏(1988-),女,本科,主要从事标准化工作。