ETL技术在电信数据运营中的应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:lovesyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在当今“大数据”爆发时代,可用信息是现代企业的重要资源,是企业进行科学有效的管理和进行正确决策分析的基础,如何对数据进行处理也已经成为每个企业在经营过程中的重要环节,使用计算机技术实现数据的自动化地调度更是成为了一种必然趋势。现今,很多企业仍然没有最大化地利用已存在的数据资源,况且对大量数据的重复、粗暴、简陋的处理也.耗费了大量的人力物力,也耽误了最佳的商业决策时机。所以,对数据进行有效地清洗及自动化固化可以极大地减少企业的人力及时间成本,为企业节省更多的成本。而对海量数据的处理就用到了数据仓库技术——ETL(Extract-Transform-Load)。
  关键词:经营分析;数据处理;Oracle;ETL;数据清洗,数据抽取;数据挖掘
  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)24-0256-02
  1 ETL技术在电信数据运营中的应用现状
  1.1背景介绍
  近年来随着“大数据”不断地提出,对海量数据的处理也逐渐面临巨大挑战。而随着中国电信市场份额的日益壮大以及竞争愈加激烈的信息市场,对数据的处理程度将成为重要的一环。
  对于电信行业来说,存在着庞大的数据信息,而运营商想要在市场上站稳脚步,就要建立以目标客户为中心,适应市场机制的运营计划,那么就要必须及时地了解市场的动向,准确的做出战略调整。这激烈的市场竞争要求电信业对客户的需求,以及对隐藏的客户都有着灵敏的感知度,而这所有的有效信息都来源于数据之中,所以如何让对海量数据进行处理,对数据进行有有效、及时的处理成为了电信业企业竞争的一个核心。
  1.2国内外现状分析
  目前,国外的电信运营公司大部分也都已经有了稳定的框架模型,而且也在实际的运营中,在商业决策中都将数据挖掘提上议程,并且,在此基础上,将数据挖掘提升为成自动化技术,以指导公司运营战略性决策的制定。而在于我国,ETL在电信中的运用已得到极大地重视,但是整体的发展起步较晚,还处于初级阶段, 鉴于我国这一国情,我们的电信业经营分析系统数据仓库的构建流程就不得不经常变动随时调整来适应实际运营中的现实问题。通过ETL的构建对大量数据的处理,从而节省人力物力,使运营商的运营成本得以大大减少,所以,如何建立好自己的经营分析系统是每一个运营商和系统开发商都不得不面对的问题和挑战。
  1.3 ETL技术在电信运营分析中的应用实例
  中国电信集团公司**分公司对地下各地市每天都要将大量数据上传至集团公司。
  集团公司需要对对海量数据进行清洗,根据口径整理所需字段,梳理出当天的运营情况,将日数据清洗之后对大量数据还需要再次进行整合成月数据进行处理,并且需要根据这些数据制定电信集团**分公司的具体的运营计划或方针,可是,在对数据的处理过程中或会发现存在大量的重复工冗余作,不但浪费了大量的人力,也会浪费不必要的时间,所以为了避免人力和时间的浪费,所以把以oracle来处理数据的脚本,以存储过程固化,再运用ETL调度平台对其进行任务配置,当集团下分属公司将数据定时提交上来之后,集团公司公司就可以运用ETL调度平台对数据进行自动化的处理,节省人力物力。
  2 ETL技术介绍
  2.1 ETL技术的定义
  ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL这个词在数据仓库方面用得比较多,但是,ETL的对象并不只是局限于数据仓库一个。
  ETL在构建数据仓库当中是非常重要的,用户要将数据加载至数据仓库中,并且需要按照提前规划好的模型数据仓库,首先要将所需数据从数据源抽取出来,第二步再将抽取出来的数据进行清洗。
  2.2 ETL工具应用
  ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle、久其ETL等。
  开源的工具有eclipse的etl插件:cloveretl。
  数据集成:快速实现ETL。
  ETL的质量问题具体表现特性主要有:正确性;完整性;一致性;完备性;有效性;时效性;可获取性等。
  而有很多的原因会影响ETL的质量从而导致问题出现,由系统集成和历史数据造成的原因主要包括:1)业务系统不同时期系统之间数据模型不一致;2)业务系统不同时期业务过程有变化;3)旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;4)遗留系统和新业务、管理系统数据集成不完备带来的不一致性。
  ETL的实现,第一步是要实现ETL转换的过程。具体体现在以下几个方面:1)空值的处理;2)规范化数据格式;3)拆分数据;4)验证数据正确性;5)数据替换;6)建立ETL过程的主外键约束。
  2.3 ETL体系结构
  对于一个比较完善的ETL体系结构,一般都会含有以下几个部分,这也是体现了ETL产品框架的组成的主要部分。
  1)ETL设计;2)元数据管理;3)数据抽取;4)数据转换;5)数据加载;6)数据传输进程;7)管理和操作平台。
  3 ETL模型介绍
  3.1 ETL框架
  在实际的ETL模型设计当中要根据实际的环境和情况进行建模和框架设计。
  在ETL设计过程中,一般需要先进行数据转换、再进行数据抽取、最后进行数据加载,遵循这样的原则再结合电信的具体业务情况将ETL流程结构设计如下:
  3.2 针对电信行业的ETL框架说明
  各个不同业务平台存放数据的服务器叫做FTP服务器。在该服务器上,运营商会将数据存放在其中一个服务器上,根据用户权限开通下载服务器端口,对数据进行整理,拥有相应的端口权限对平台存放的数据进行获取,或者运用跳板机进行获取,这样是为了保证数据信息的安全性。在电信行业中的ETL Automation机制分为:   1)对需要加载的接口文件进行抽取、转换、审核;
  2)对审核已经通过的数据再进行分发;
  3)对已经分发完成的接口文件进行装载。
  这些机制分别在服务器系统中加入,每一步作业的执行都需要调用相关的脚本。在设计ETL框架时主要重点在处理各种元数据上,此外,一方面是用来解决模式冲突问题,另一方面则为客户提供一套逻辑比较完善合理的流程,协助分析和逐步调整数据清洗过程,方便用户在逻辑层设计数据处理流程,确定需要执行的数据转化步骤;运行时则在物理层实现设计时定制的规则,并对它们进行优化。在整个的ETL流程中,第一步的数据抽取和第二步的数据转换触发工作是通过设定脚本或者相关程序在指定目录下的扫描时间来进行的。
  4 结束语
  本文中提到的TEL监控方法,是通过对相互连接的任务工作流流程节点的进行监控,从而实现对人员的工作流程及数据量进行监控。首先,通过实际的运营建模,然后再根据模型和实际的任务数据相结合而进行监控,这样的任务监控方法可以根据运营商复杂多变的信息业务需求随时做出灵活的调整,为高效管理的运营提供数据上的支持。但是,在实际的运营过程当中,要对任务监控管理,任务分配的问题其实归根结底是一个优化配置资源的问题,而怎样才能使任务分配的整体效能达到最优,则取决于市场模型的分析,以及对工作流整体的设计和后续优化。
  参考文献:
  [1] Wf MC.Theworkflow reference model[R].[s.1.]:Wf MCTC00—1033 WorkflowManagement G31ition,1995:28-35.
  [2] 郭道宁,舒华英.数据挖掘在电信运营市场决策支持中的应用EJ].北京邮电大学学报:社会科学版,2004(2):15-16.
  [3] 赵军富,马胜梅,刘玉平,等.基于Web Serviees的工作流系统管理监控工具设计[J].内蒙古科技大学学报,2008,27(3):256-259.
  [4] MelnikS,Gubarev A,LongJ J,et 01.Dremel:interactiveanalysis of web·scaledatasets.Communications of the ACM,2011,54(6):1 14~123
  [5] D.Margineantu,S.Bay,P.Chan.T.Lane.Data Mining Standards,Serviees and Platforms 2005.
  Workshop Report.ACM SIGKDDDecember 2005,7(2):137.
  [6] 王丽珍.数据仓库与数据挖掘原理应用[M].2版.北京:科学出版社,2009.
  [7] 丁康宝.数据库实用教程[M].2版.北京:清华大学出版社,2003.
其他文献
摘要:在经济发展期间,农业为重要组成部分,玉米是最为常见的农作物之一,在提升经济水平,维持人们良好生活质量方面均可起到关键性作用。本文主要分析玉米高产栽培技术及所获取的效益。  关键词:玉米;高产栽培技术;效益  随着不断发展现代农业生产技术,各地区均开始重点研发玉米高产栽培技术,经提升玉米产量,调整产业结构,实现玉米高产。  1 玉米栽培期间出现的不足  1.1 缺乏优良种子  种子行业在农业市
随着信息系统项目建设的不断推进,信息系统运维管理日趋成为信息化建设的日常重要工作。本文依据自身在运维工作方面的经验,从模块设置、内容确定、监控手段等方面,探索IT运
探讨了用液相法在钛合金表面沉积制备类金刚石膜的可能性,研究了沉积膜工艺条件对膜的影响,得出了适宜的沉积条件.结果表明,通过液相法可以沉积制备得到DLC膜,但与沉积条件有
研究了包覆剂、研磨剂及其添加量、轧制和球磨等工艺参数对超微锌粉性能的影响,结果表明,以最佳制备工艺获得的锌粉呈鳞片状,中位径为23.72μm,90%集中在10~40μm之间,厚度在0
随着国民经济的发展,城际铁路在我国大规模建设。城际铁路桥梁简支跨以箱梁为主,箱梁施工方式的选择对城际铁路工程的建设有较大影响。此文在介绍城际铁路简支箱梁施工方式的
面向移动终端的电子商务客户端开发成为当前研究的热点。课题针对Android智能平台,结合富客户端设计理念及RSA非对称签名算法,用JSON数据格式实现客户端和服务器端的信息交互
新型冠状病毒的传播,使风景园林规划设计面临着新的挑战。文章在介绍风景园林健康概念的基础上,针对不同环境胁迫和人类福祉要求的生态韧性和生态抗性内涵进行分析,提出最大
摘要:社会经济和科学技术迅猛发展,我国农业种植技术有了明显提升,特别是引进和运用了现代作物种植栽培技术,农作物的生产产能以及效率都有了明显的提升。玉米属于经济作物的一种,在我国很多地区都有着广泛的种植,同时占据着极为重要的作用,农业种植技术的发展,也在某种程度上推动了玉米栽培技术的发展,但是从目前我国栽培技术的实际情况来看,依然处在有诸多问题,不能将玉米栽培技术的重要价值最大限度的发挥出来,玉米的
创新产生的核心是在需求和目标导向下实现创新要素在创新产业空间中的加速流动与融合响应,对创新空间特征和规划策略的研究是创新驱动发展背景下的重要课题。在分析创新产业空间内涵及其发展脉络的基础上,对新时期创新产业的转变趋势进行归纳,总结得出区位邻近性强、创新要素浓度高、功能复合、创新网络连接紧密对于新型创新产业空间持续发展的重要支撑作用,提出具有相对较小规模的"城市创新产业单元"的概念并详细分析其空间特
2018年6月5日,"被动式低能耗建筑产业技术创新战略联盟技术交流会在北京召开。出席会议的演讲嘉宾向参会代表介绍了被动式低能耗建筑示范应用中的导则与技术,其中包括:住房和城