论文部分内容阅读
摘要:在当今“大数据”爆发时代,可用信息是现代企业的重要资源,是企业进行科学有效的管理和进行正确决策分析的基础,如何对数据进行处理也已经成为每个企业在经营过程中的重要环节,使用计算机技术实现数据的自动化地调度更是成为了一种必然趋势。现今,很多企业仍然没有最大化地利用已存在的数据资源,况且对大量数据的重复、粗暴、简陋的处理也.耗费了大量的人力物力,也耽误了最佳的商业决策时机。所以,对数据进行有效地清洗及自动化固化可以极大地减少企业的人力及时间成本,为企业节省更多的成本。而对海量数据的处理就用到了数据仓库技术——ETL(Extract-Transform-Load)。
关键词:经营分析;数据处理;Oracle;ETL;数据清洗,数据抽取;数据挖掘
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)24-0256-02
1 ETL技术在电信数据运营中的应用现状
1.1背景介绍
近年来随着“大数据”不断地提出,对海量数据的处理也逐渐面临巨大挑战。而随着中国电信市场份额的日益壮大以及竞争愈加激烈的信息市场,对数据的处理程度将成为重要的一环。
对于电信行业来说,存在着庞大的数据信息,而运营商想要在市场上站稳脚步,就要建立以目标客户为中心,适应市场机制的运营计划,那么就要必须及时地了解市场的动向,准确的做出战略调整。这激烈的市场竞争要求电信业对客户的需求,以及对隐藏的客户都有着灵敏的感知度,而这所有的有效信息都来源于数据之中,所以如何让对海量数据进行处理,对数据进行有有效、及时的处理成为了电信业企业竞争的一个核心。
1.2国内外现状分析
目前,国外的电信运营公司大部分也都已经有了稳定的框架模型,而且也在实际的运营中,在商业决策中都将数据挖掘提上议程,并且,在此基础上,将数据挖掘提升为成自动化技术,以指导公司运营战略性决策的制定。而在于我国,ETL在电信中的运用已得到极大地重视,但是整体的发展起步较晚,还处于初级阶段, 鉴于我国这一国情,我们的电信业经营分析系统数据仓库的构建流程就不得不经常变动随时调整来适应实际运营中的现实问题。通过ETL的构建对大量数据的处理,从而节省人力物力,使运营商的运营成本得以大大减少,所以,如何建立好自己的经营分析系统是每一个运营商和系统开发商都不得不面对的问题和挑战。
1.3 ETL技术在电信运营分析中的应用实例
中国电信集团公司**分公司对地下各地市每天都要将大量数据上传至集团公司。
集团公司需要对对海量数据进行清洗,根据口径整理所需字段,梳理出当天的运营情况,将日数据清洗之后对大量数据还需要再次进行整合成月数据进行处理,并且需要根据这些数据制定电信集团**分公司的具体的运营计划或方针,可是,在对数据的处理过程中或会发现存在大量的重复工冗余作,不但浪费了大量的人力,也会浪费不必要的时间,所以为了避免人力和时间的浪费,所以把以oracle来处理数据的脚本,以存储过程固化,再运用ETL调度平台对其进行任务配置,当集团下分属公司将数据定时提交上来之后,集团公司公司就可以运用ETL调度平台对数据进行自动化的处理,节省人力物力。
2 ETL技术介绍
2.1 ETL技术的定义
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL这个词在数据仓库方面用得比较多,但是,ETL的对象并不只是局限于数据仓库一个。
ETL在构建数据仓库当中是非常重要的,用户要将数据加载至数据仓库中,并且需要按照提前规划好的模型数据仓库,首先要将所需数据从数据源抽取出来,第二步再将抽取出来的数据进行清洗。
2.2 ETL工具应用
ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle、久其ETL等。
开源的工具有eclipse的etl插件:cloveretl。
数据集成:快速实现ETL。
ETL的质量问题具体表现特性主要有:正确性;完整性;一致性;完备性;有效性;时效性;可获取性等。
而有很多的原因会影响ETL的质量从而导致问题出现,由系统集成和历史数据造成的原因主要包括:1)业务系统不同时期系统之间数据模型不一致;2)业务系统不同时期业务过程有变化;3)旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;4)遗留系统和新业务、管理系统数据集成不完备带来的不一致性。
ETL的实现,第一步是要实现ETL转换的过程。具体体现在以下几个方面:1)空值的处理;2)规范化数据格式;3)拆分数据;4)验证数据正确性;5)数据替换;6)建立ETL过程的主外键约束。
2.3 ETL体系结构
对于一个比较完善的ETL体系结构,一般都会含有以下几个部分,这也是体现了ETL产品框架的组成的主要部分。
1)ETL设计;2)元数据管理;3)数据抽取;4)数据转换;5)数据加载;6)数据传输进程;7)管理和操作平台。
3 ETL模型介绍
3.1 ETL框架
在实际的ETL模型设计当中要根据实际的环境和情况进行建模和框架设计。
在ETL设计过程中,一般需要先进行数据转换、再进行数据抽取、最后进行数据加载,遵循这样的原则再结合电信的具体业务情况将ETL流程结构设计如下:
3.2 针对电信行业的ETL框架说明
各个不同业务平台存放数据的服务器叫做FTP服务器。在该服务器上,运营商会将数据存放在其中一个服务器上,根据用户权限开通下载服务器端口,对数据进行整理,拥有相应的端口权限对平台存放的数据进行获取,或者运用跳板机进行获取,这样是为了保证数据信息的安全性。在电信行业中的ETL Automation机制分为: 1)对需要加载的接口文件进行抽取、转换、审核;
2)对审核已经通过的数据再进行分发;
3)对已经分发完成的接口文件进行装载。
这些机制分别在服务器系统中加入,每一步作业的执行都需要调用相关的脚本。在设计ETL框架时主要重点在处理各种元数据上,此外,一方面是用来解决模式冲突问题,另一方面则为客户提供一套逻辑比较完善合理的流程,协助分析和逐步调整数据清洗过程,方便用户在逻辑层设计数据处理流程,确定需要执行的数据转化步骤;运行时则在物理层实现设计时定制的规则,并对它们进行优化。在整个的ETL流程中,第一步的数据抽取和第二步的数据转换触发工作是通过设定脚本或者相关程序在指定目录下的扫描时间来进行的。
4 结束语
本文中提到的TEL监控方法,是通过对相互连接的任务工作流流程节点的进行监控,从而实现对人员的工作流程及数据量进行监控。首先,通过实际的运营建模,然后再根据模型和实际的任务数据相结合而进行监控,这样的任务监控方法可以根据运营商复杂多变的信息业务需求随时做出灵活的调整,为高效管理的运营提供数据上的支持。但是,在实际的运营过程当中,要对任务监控管理,任务分配的问题其实归根结底是一个优化配置资源的问题,而怎样才能使任务分配的整体效能达到最优,则取决于市场模型的分析,以及对工作流整体的设计和后续优化。
参考文献:
[1] Wf MC.Theworkflow reference model[R].[s.1.]:Wf MCTC00—1033 WorkflowManagement G31ition,1995:28-35.
[2] 郭道宁,舒华英.数据挖掘在电信运营市场决策支持中的应用EJ].北京邮电大学学报:社会科学版,2004(2):15-16.
[3] 赵军富,马胜梅,刘玉平,等.基于Web Serviees的工作流系统管理监控工具设计[J].内蒙古科技大学学报,2008,27(3):256-259.
[4] MelnikS,Gubarev A,LongJ J,et 01.Dremel:interactiveanalysis of web·scaledatasets.Communications of the ACM,2011,54(6):1 14~123
[5] D.Margineantu,S.Bay,P.Chan.T.Lane.Data Mining Standards,Serviees and Platforms 2005.
Workshop Report.ACM SIGKDDDecember 2005,7(2):137.
[6] 王丽珍.数据仓库与数据挖掘原理应用[M].2版.北京:科学出版社,2009.
[7] 丁康宝.数据库实用教程[M].2版.北京:清华大学出版社,2003.
关键词:经营分析;数据处理;Oracle;ETL;数据清洗,数据抽取;数据挖掘
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)24-0256-02
1 ETL技术在电信数据运营中的应用现状
1.1背景介绍
近年来随着“大数据”不断地提出,对海量数据的处理也逐渐面临巨大挑战。而随着中国电信市场份额的日益壮大以及竞争愈加激烈的信息市场,对数据的处理程度将成为重要的一环。
对于电信行业来说,存在着庞大的数据信息,而运营商想要在市场上站稳脚步,就要建立以目标客户为中心,适应市场机制的运营计划,那么就要必须及时地了解市场的动向,准确的做出战略调整。这激烈的市场竞争要求电信业对客户的需求,以及对隐藏的客户都有着灵敏的感知度,而这所有的有效信息都来源于数据之中,所以如何让对海量数据进行处理,对数据进行有有效、及时的处理成为了电信业企业竞争的一个核心。
1.2国内外现状分析
目前,国外的电信运营公司大部分也都已经有了稳定的框架模型,而且也在实际的运营中,在商业决策中都将数据挖掘提上议程,并且,在此基础上,将数据挖掘提升为成自动化技术,以指导公司运营战略性决策的制定。而在于我国,ETL在电信中的运用已得到极大地重视,但是整体的发展起步较晚,还处于初级阶段, 鉴于我国这一国情,我们的电信业经营分析系统数据仓库的构建流程就不得不经常变动随时调整来适应实际运营中的现实问题。通过ETL的构建对大量数据的处理,从而节省人力物力,使运营商的运营成本得以大大减少,所以,如何建立好自己的经营分析系统是每一个运营商和系统开发商都不得不面对的问题和挑战。
1.3 ETL技术在电信运营分析中的应用实例
中国电信集团公司**分公司对地下各地市每天都要将大量数据上传至集团公司。
集团公司需要对对海量数据进行清洗,根据口径整理所需字段,梳理出当天的运营情况,将日数据清洗之后对大量数据还需要再次进行整合成月数据进行处理,并且需要根据这些数据制定电信集团**分公司的具体的运营计划或方针,可是,在对数据的处理过程中或会发现存在大量的重复工冗余作,不但浪费了大量的人力,也会浪费不必要的时间,所以为了避免人力和时间的浪费,所以把以oracle来处理数据的脚本,以存储过程固化,再运用ETL调度平台对其进行任务配置,当集团下分属公司将数据定时提交上来之后,集团公司公司就可以运用ETL调度平台对数据进行自动化的处理,节省人力物力。
2 ETL技术介绍
2.1 ETL技术的定义
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL这个词在数据仓库方面用得比较多,但是,ETL的对象并不只是局限于数据仓库一个。
ETL在构建数据仓库当中是非常重要的,用户要将数据加载至数据仓库中,并且需要按照提前规划好的模型数据仓库,首先要将所需数据从数据源抽取出来,第二步再将抽取出来的数据进行清洗。
2.2 ETL工具应用
ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle、久其ETL等。
开源的工具有eclipse的etl插件:cloveretl。
数据集成:快速实现ETL。
ETL的质量问题具体表现特性主要有:正确性;完整性;一致性;完备性;有效性;时效性;可获取性等。
而有很多的原因会影响ETL的质量从而导致问题出现,由系统集成和历史数据造成的原因主要包括:1)业务系统不同时期系统之间数据模型不一致;2)业务系统不同时期业务过程有变化;3)旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;4)遗留系统和新业务、管理系统数据集成不完备带来的不一致性。
ETL的实现,第一步是要实现ETL转换的过程。具体体现在以下几个方面:1)空值的处理;2)规范化数据格式;3)拆分数据;4)验证数据正确性;5)数据替换;6)建立ETL过程的主外键约束。
2.3 ETL体系结构
对于一个比较完善的ETL体系结构,一般都会含有以下几个部分,这也是体现了ETL产品框架的组成的主要部分。
1)ETL设计;2)元数据管理;3)数据抽取;4)数据转换;5)数据加载;6)数据传输进程;7)管理和操作平台。
3 ETL模型介绍
3.1 ETL框架
在实际的ETL模型设计当中要根据实际的环境和情况进行建模和框架设计。
在ETL设计过程中,一般需要先进行数据转换、再进行数据抽取、最后进行数据加载,遵循这样的原则再结合电信的具体业务情况将ETL流程结构设计如下:
3.2 针对电信行业的ETL框架说明
各个不同业务平台存放数据的服务器叫做FTP服务器。在该服务器上,运营商会将数据存放在其中一个服务器上,根据用户权限开通下载服务器端口,对数据进行整理,拥有相应的端口权限对平台存放的数据进行获取,或者运用跳板机进行获取,这样是为了保证数据信息的安全性。在电信行业中的ETL Automation机制分为: 1)对需要加载的接口文件进行抽取、转换、审核;
2)对审核已经通过的数据再进行分发;
3)对已经分发完成的接口文件进行装载。
这些机制分别在服务器系统中加入,每一步作业的执行都需要调用相关的脚本。在设计ETL框架时主要重点在处理各种元数据上,此外,一方面是用来解决模式冲突问题,另一方面则为客户提供一套逻辑比较完善合理的流程,协助分析和逐步调整数据清洗过程,方便用户在逻辑层设计数据处理流程,确定需要执行的数据转化步骤;运行时则在物理层实现设计时定制的规则,并对它们进行优化。在整个的ETL流程中,第一步的数据抽取和第二步的数据转换触发工作是通过设定脚本或者相关程序在指定目录下的扫描时间来进行的。
4 结束语
本文中提到的TEL监控方法,是通过对相互连接的任务工作流流程节点的进行监控,从而实现对人员的工作流程及数据量进行监控。首先,通过实际的运营建模,然后再根据模型和实际的任务数据相结合而进行监控,这样的任务监控方法可以根据运营商复杂多变的信息业务需求随时做出灵活的调整,为高效管理的运营提供数据上的支持。但是,在实际的运营过程当中,要对任务监控管理,任务分配的问题其实归根结底是一个优化配置资源的问题,而怎样才能使任务分配的整体效能达到最优,则取决于市场模型的分析,以及对工作流整体的设计和后续优化。
参考文献:
[1] Wf MC.Theworkflow reference model[R].[s.1.]:Wf MCTC00—1033 WorkflowManagement G31ition,1995:28-35.
[2] 郭道宁,舒华英.数据挖掘在电信运营市场决策支持中的应用EJ].北京邮电大学学报:社会科学版,2004(2):15-16.
[3] 赵军富,马胜梅,刘玉平,等.基于Web Serviees的工作流系统管理监控工具设计[J].内蒙古科技大学学报,2008,27(3):256-259.
[4] MelnikS,Gubarev A,LongJ J,et 01.Dremel:interactiveanalysis of web·scaledatasets.Communications of the ACM,2011,54(6):1 14~123
[5] D.Margineantu,S.Bay,P.Chan.T.Lane.Data Mining Standards,Serviees and Platforms 2005.
Workshop Report.ACM SIGKDDDecember 2005,7(2):137.
[6] 王丽珍.数据仓库与数据挖掘原理应用[M].2版.北京:科学出版社,2009.
[7] 丁康宝.数据库实用教程[M].2版.北京:清华大学出版社,2003.