论文部分内容阅读
摘 要:随着计算机技术的发展,基于云计算平台下的数据挖掘系统日趋完善,并为用户提供了更为便捷的服务。本文以云计算的数据挖掘平台架构设计与实现为切入点,对当前云计算环境下的数据挖掘系统的发展加以分析,希望对推动该技术的发展起到积极的作用。
关键词:云计算;数据挖掘;大数据
一、云计算数据挖掘系统架构设计的分析
(一) 目标系统模型
以云计算为前提所构建的目标系统模型所提供的服务界面更为透明,接口服务也更具有开放性。此时,用户可以通过终端访问的方式直接使用系统,还可以通过开放式接口实现对应用系统的间接访问。终端客户使用过程中不必考虑系统的存储能力,仅需考虑到算法的选择。使用结果就是将任务形式直接部署到相应的系统之中,以此获取所需的挖掘数据。同时,以云计算环境为条件的数据挖掘平台,都可以通过开放式接口与用户界面提供便捷的服务。
(二) 功能层次框架设计
1. 算法层
算法层主要是通过对下层数据的调用,并通过相关算法实现有效地管理。由于运算方法存在执行顺序与结果存在较大的差异,需区别对待。以数据清洗算法为例,该方法挖掘噪声数据前,需对接口服务进行调用,然后对相关数据加以清洗,通过数据层存储于云计算平台,该步骤的重要作用是更好地服务于后续数据挖掘。数据挖掘调用服务,在应用该服务之前,将已清洗的及不需要清洗的数据利用数据挖掘技术统一对数据进行调用。
2. 应用层
与其他层相比,抽象性是应用层更为突出的特性。应用层主要是描述海量数据的挖掘、算法之间的冠以相关具体数据,还能直接为客户提供维护接口和调用服务。
3. 用户层
云计算的应用层通过友好用户界面直接提供了用户所需的相关服务和软件,主要为客户提供OA、CRM 和ERP 等相关服务(见图1) 。
(三) 云计算机构设计的关键点
1. 插件系统的设计
插件程序是对相应的应用程序开发接口加以规范实现的。所有插件都是由扩展点、业务逻辑、调用下层扩展点这三部分组成的,以上三部分都是由相同的模块对绑定包加以管理。绑定包需具备规范要求,在特定目录下防止插件,可以及时识别并实现动态加载。此外,插件的算法是以满足算法为前提,而不仅局限于特定个数与排列数据,其兼容性的实现是以提供抽象数据为基础的。该算法除此之外,算法实现不同于以往针对特定个数、排列数据而实现。它是在满足实现算法的基础上,利用抽象数据提供更多的兼容性。
2. 开放接口的设计
在云计算平臺中,开放接口主要用于数据的使用。在使用过程中,我们可以充分挖掘出所需的数据资源。设计开放接口的前提是保证其具有相关性与高效性,无态型优势是平台接口(REST)
最为主要的使用优势。在某一局域网之中,缓冲装置可实现重复调用。正是这种重复使用能提升服务器的吞吐量,最大限度的降低服务器的工作负担。
(四) 云计算数据挖掘平台架构的实现
1. 开发环境
云计算的开发环境各不相同,但对环境的要求都是提供自动扩展与动态服务等方面,以Google为例,其开发环境为App Engine,如果计算过程中出现重载以及数据量剧增的情况,构造出的应用程序具有较强的安全性。
2. 云计算数据平台架构的开发思想与技术
( 1) 原型开发模型
该模型的开发是建立在快速分析的基础之上的,开发人与用户的有效沟通能够准确将系统需求加以定位,同时结合原型特征满足开发的目的;建构原型需结合认真的分析,进而建构出具有较高可行性的系统。为了保证支持技术的可靠性,需使用相应的软件工具,暂不对系统细节加以考虑; 为了保证原型运行通畅,设计人员需及时发现并解决问题; 考核原型特性的目的是将原型的运行效果与用户满意程度加以测评,如测评中发现错误,有新的客户需求,则需根据实际情况提出相应的修改建议。
( 2) 以WSGI 为前提的规范开发
由于WSGI 规范基础上的开发优势明显,能够很好地实现系统可用性的提升、实现跨平台的操作可行性。因此,该方式较之传统的C /S 模块而言,具有使用上的便捷性。用户访问系统是通过浏览器实现的,还为用户提供了更多的选择。需注意的是,WSGI 规范的实现是以Python 语言环境为基础的,该语言具有跨平台的特点,这也增加了系统与云计算平台结合的便捷性。
3. 开发步骤
( 1) 算法模块插件系统
该系统的算法主要有数据挖掘算法、数据清洗算法、结果可视算法等。为了保证执行过程的完整性,需在不规则数据和原始数据集的前提下通过数据清洗算法统一整理数据集才能实现。此外,还可以通过异构和分布式中转数据源后生成较为规则的数据集。通过数据挖掘算法对规则数据进行处理,得到需要获取的信息,进而以可视的形式呈献给使用者。上述过程中,涉及到数据调用的都需以REST 接口实现,数据通过接口传递与转换的格式都为XML。由于多种算法模块的出现,促使云计算平台下的数据挖掘平台能够提供更多的实用功能。
( 2) 数据集访问模块
数据集访问模块与算法模块有很多相同之处,例如: 插入方式与调用以及访问数据集时的调用状态都是一致的。不同之处在于,其在调用数据集访问模块之前,能够将数据实例文件自动加以分解,形成多个物理访问地址和元数据组,进而将参数传递至数据集访问模块。
4. 云计算数据挖掘平台的架构
( 1) 系统构成
用户交互、应用程序、数据挖掘与硬件服务等众多子系统构成了基于云计算的数据挖掘平台系统,通过终端设备进入互联网并与数据平台连接,进而实现数据挖掘的目的。上述几个子系统的有机组合能够很好地为用户提供数据,还能通过单独运行服务于用户。 ( 2) 用户交互子系统
该系统是用户与平台之间的交互接口,在图形的形式下操作。其主要服务内容包括: 注册和注销、用户的授权申请、用户的身份验证、账户管理等。该系统不仅保证了平台的安全,有效地提供了用户入口。
( 3) 应用程序子系统
作为数据挖掘和用户管理之间的衔接环节,应用程序子系统可以准确描述数据与算法、相互关系,并通过任务形式加以实现。其工作内容还包括: 用户的注册和注销、用户应用、调用服务于应用维护入口等功能。
( 4) 数据挖掘子系统
该系统完成挖掘任务的基础是数据的计算及数据信息的处理。该系统的功能模块包括: 数据的挖掘和预处理、数据的评估、特殊化服务等。该系统对相应数据处理后,按照固定格式储存于数据库之中,并通过降噪处理满足不同用户的使用要求。
二、基于云计算的数据挖掘平台构架的关键技术
构建云计算数据挖掘是建立在分布式计算、并行与效用计算、网络存储、虚拟化、负载均衡、热备份冗余等网络计算机技术之上的,所涉及的主要技术有如下几方面。
(一) 云计算技术
1. 分布式储存技术
为了保证云计算技术处理数据时的经济性与高可靠性,我们通常采用分布式存储的方式实现数据的存储。为了弥补硬件的不足,一般选用最为可靠的软件,正是在这种要求下,分布式存储技术不但能提供海量的数据挖掘支持,还具有非常廉价的经济优势。
2. 虚拟化技术
全面虚拟条件下的应用与整合可以保证在云计算的环境下,实现大量数据挖掘功能的实现。在虚拟化与云计算的组合作用下,资源调度能够实现数据挖掘通过跨系统整合,进而通过IT 资源汇合海量数据,并以动态的形式供给用户虚拟化的资源。这样能够保证服务任务具有海量动态的特点和高效率的优势。
3. 并行云计算技术
该技术与云计算技术并行,在执行数据挖掘和计算过程中具有很强的高效性,因此,该技术属于数据挖掘过程中的重要技术手段。该技术还能针对部分技术细节进行封装,如: 任务调度、并行、容错、数据分布等方面。由于该技术的功能打消了客户的顾虑,直接提高了研发的效率。
(二) 數据汇集调度中心
数据汇集调度中心主要作用在于能够针对不同类的数据加以汇集。同时,该技术也收集汇合了接入云计算数据挖掘平台的业务数据,有效地解决了因为数据不同而产生的数据相关规约问题,并在运行中支持各种源数据格式。
(三) 服务调度与管理技术
在云计算的数据挖掘平台下,为保证各种业务系统都能使用该平台,需提供必要的管理与调度功能。通过有效地管理与调度,保证各系统能够并行且互斥,还要实现系统间的隔离,这样才能确保平台在安全可靠的条件下服务于客户。服务调度与管理需满足统一服务注册以及支持第三方数据挖掘的功能,这样才能将平台的服务能力更好地加以扩展。
参考文献
[1] 陈康,郑纬民.云计算: 系统实例与研究现状[J].软件学报,2009,20( 5).
[2] 2015 - 2020 年中国云计算产业发展前景与投资战略规划分析报告[R]. 2015.
[3] 冯登国,张敏,张妍,等.云计算安全研究[J].软件学报,2011,22(1).
[4] 庄福振.基于云计算的大数据挖掘平台[J].中兴通讯技术,2013,(19).
关键词:云计算;数据挖掘;大数据
一、云计算数据挖掘系统架构设计的分析
(一) 目标系统模型
以云计算为前提所构建的目标系统模型所提供的服务界面更为透明,接口服务也更具有开放性。此时,用户可以通过终端访问的方式直接使用系统,还可以通过开放式接口实现对应用系统的间接访问。终端客户使用过程中不必考虑系统的存储能力,仅需考虑到算法的选择。使用结果就是将任务形式直接部署到相应的系统之中,以此获取所需的挖掘数据。同时,以云计算环境为条件的数据挖掘平台,都可以通过开放式接口与用户界面提供便捷的服务。
(二) 功能层次框架设计
1. 算法层
算法层主要是通过对下层数据的调用,并通过相关算法实现有效地管理。由于运算方法存在执行顺序与结果存在较大的差异,需区别对待。以数据清洗算法为例,该方法挖掘噪声数据前,需对接口服务进行调用,然后对相关数据加以清洗,通过数据层存储于云计算平台,该步骤的重要作用是更好地服务于后续数据挖掘。数据挖掘调用服务,在应用该服务之前,将已清洗的及不需要清洗的数据利用数据挖掘技术统一对数据进行调用。
2. 应用层
与其他层相比,抽象性是应用层更为突出的特性。应用层主要是描述海量数据的挖掘、算法之间的冠以相关具体数据,还能直接为客户提供维护接口和调用服务。
3. 用户层
云计算的应用层通过友好用户界面直接提供了用户所需的相关服务和软件,主要为客户提供OA、CRM 和ERP 等相关服务(见图1) 。
(三) 云计算机构设计的关键点
1. 插件系统的设计
插件程序是对相应的应用程序开发接口加以规范实现的。所有插件都是由扩展点、业务逻辑、调用下层扩展点这三部分组成的,以上三部分都是由相同的模块对绑定包加以管理。绑定包需具备规范要求,在特定目录下防止插件,可以及时识别并实现动态加载。此外,插件的算法是以满足算法为前提,而不仅局限于特定个数与排列数据,其兼容性的实现是以提供抽象数据为基础的。该算法除此之外,算法实现不同于以往针对特定个数、排列数据而实现。它是在满足实现算法的基础上,利用抽象数据提供更多的兼容性。
2. 开放接口的设计
在云计算平臺中,开放接口主要用于数据的使用。在使用过程中,我们可以充分挖掘出所需的数据资源。设计开放接口的前提是保证其具有相关性与高效性,无态型优势是平台接口(REST)
最为主要的使用优势。在某一局域网之中,缓冲装置可实现重复调用。正是这种重复使用能提升服务器的吞吐量,最大限度的降低服务器的工作负担。
(四) 云计算数据挖掘平台架构的实现
1. 开发环境
云计算的开发环境各不相同,但对环境的要求都是提供自动扩展与动态服务等方面,以Google为例,其开发环境为App Engine,如果计算过程中出现重载以及数据量剧增的情况,构造出的应用程序具有较强的安全性。
2. 云计算数据平台架构的开发思想与技术
( 1) 原型开发模型
该模型的开发是建立在快速分析的基础之上的,开发人与用户的有效沟通能够准确将系统需求加以定位,同时结合原型特征满足开发的目的;建构原型需结合认真的分析,进而建构出具有较高可行性的系统。为了保证支持技术的可靠性,需使用相应的软件工具,暂不对系统细节加以考虑; 为了保证原型运行通畅,设计人员需及时发现并解决问题; 考核原型特性的目的是将原型的运行效果与用户满意程度加以测评,如测评中发现错误,有新的客户需求,则需根据实际情况提出相应的修改建议。
( 2) 以WSGI 为前提的规范开发
由于WSGI 规范基础上的开发优势明显,能够很好地实现系统可用性的提升、实现跨平台的操作可行性。因此,该方式较之传统的C /S 模块而言,具有使用上的便捷性。用户访问系统是通过浏览器实现的,还为用户提供了更多的选择。需注意的是,WSGI 规范的实现是以Python 语言环境为基础的,该语言具有跨平台的特点,这也增加了系统与云计算平台结合的便捷性。
3. 开发步骤
( 1) 算法模块插件系统
该系统的算法主要有数据挖掘算法、数据清洗算法、结果可视算法等。为了保证执行过程的完整性,需在不规则数据和原始数据集的前提下通过数据清洗算法统一整理数据集才能实现。此外,还可以通过异构和分布式中转数据源后生成较为规则的数据集。通过数据挖掘算法对规则数据进行处理,得到需要获取的信息,进而以可视的形式呈献给使用者。上述过程中,涉及到数据调用的都需以REST 接口实现,数据通过接口传递与转换的格式都为XML。由于多种算法模块的出现,促使云计算平台下的数据挖掘平台能够提供更多的实用功能。
( 2) 数据集访问模块
数据集访问模块与算法模块有很多相同之处,例如: 插入方式与调用以及访问数据集时的调用状态都是一致的。不同之处在于,其在调用数据集访问模块之前,能够将数据实例文件自动加以分解,形成多个物理访问地址和元数据组,进而将参数传递至数据集访问模块。
4. 云计算数据挖掘平台的架构
( 1) 系统构成
用户交互、应用程序、数据挖掘与硬件服务等众多子系统构成了基于云计算的数据挖掘平台系统,通过终端设备进入互联网并与数据平台连接,进而实现数据挖掘的目的。上述几个子系统的有机组合能够很好地为用户提供数据,还能通过单独运行服务于用户。 ( 2) 用户交互子系统
该系统是用户与平台之间的交互接口,在图形的形式下操作。其主要服务内容包括: 注册和注销、用户的授权申请、用户的身份验证、账户管理等。该系统不仅保证了平台的安全,有效地提供了用户入口。
( 3) 应用程序子系统
作为数据挖掘和用户管理之间的衔接环节,应用程序子系统可以准确描述数据与算法、相互关系,并通过任务形式加以实现。其工作内容还包括: 用户的注册和注销、用户应用、调用服务于应用维护入口等功能。
( 4) 数据挖掘子系统
该系统完成挖掘任务的基础是数据的计算及数据信息的处理。该系统的功能模块包括: 数据的挖掘和预处理、数据的评估、特殊化服务等。该系统对相应数据处理后,按照固定格式储存于数据库之中,并通过降噪处理满足不同用户的使用要求。
二、基于云计算的数据挖掘平台构架的关键技术
构建云计算数据挖掘是建立在分布式计算、并行与效用计算、网络存储、虚拟化、负载均衡、热备份冗余等网络计算机技术之上的,所涉及的主要技术有如下几方面。
(一) 云计算技术
1. 分布式储存技术
为了保证云计算技术处理数据时的经济性与高可靠性,我们通常采用分布式存储的方式实现数据的存储。为了弥补硬件的不足,一般选用最为可靠的软件,正是在这种要求下,分布式存储技术不但能提供海量的数据挖掘支持,还具有非常廉价的经济优势。
2. 虚拟化技术
全面虚拟条件下的应用与整合可以保证在云计算的环境下,实现大量数据挖掘功能的实现。在虚拟化与云计算的组合作用下,资源调度能够实现数据挖掘通过跨系统整合,进而通过IT 资源汇合海量数据,并以动态的形式供给用户虚拟化的资源。这样能够保证服务任务具有海量动态的特点和高效率的优势。
3. 并行云计算技术
该技术与云计算技术并行,在执行数据挖掘和计算过程中具有很强的高效性,因此,该技术属于数据挖掘过程中的重要技术手段。该技术还能针对部分技术细节进行封装,如: 任务调度、并行、容错、数据分布等方面。由于该技术的功能打消了客户的顾虑,直接提高了研发的效率。
(二) 數据汇集调度中心
数据汇集调度中心主要作用在于能够针对不同类的数据加以汇集。同时,该技术也收集汇合了接入云计算数据挖掘平台的业务数据,有效地解决了因为数据不同而产生的数据相关规约问题,并在运行中支持各种源数据格式。
(三) 服务调度与管理技术
在云计算的数据挖掘平台下,为保证各种业务系统都能使用该平台,需提供必要的管理与调度功能。通过有效地管理与调度,保证各系统能够并行且互斥,还要实现系统间的隔离,这样才能确保平台在安全可靠的条件下服务于客户。服务调度与管理需满足统一服务注册以及支持第三方数据挖掘的功能,这样才能将平台的服务能力更好地加以扩展。
参考文献
[1] 陈康,郑纬民.云计算: 系统实例与研究现状[J].软件学报,2009,20( 5).
[2] 2015 - 2020 年中国云计算产业发展前景与投资战略规划分析报告[R]. 2015.
[3] 冯登国,张敏,张妍,等.云计算安全研究[J].软件学报,2011,22(1).
[4] 庄福振.基于云计算的大数据挖掘平台[J].中兴通讯技术,2013,(19).