数据仓库之ETL并行调度研发

被引量 : 0次 | 上传用户:lijws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一直以来,信息都是人们生活中很重要的东西,特别对于现代企业来说,信息的准确性和及时性就有可能决定它在商业中的成败。一般来说,按获取方式可分为两种:一种是网络新闻媒体等直观的信息,而另一种则是由相关的数据分析推测出来的信息。由于前者比较直接且公众化,故往往竞争优劣的重点就落在第二种方式上。为了做好第二种获取信息方式,就离不开数据仓库的建设。数据仓库就是一个信息提供平台,它从企业内部业务处理系统,或企业外部环境获取源数据,以星型模型和雪花模型进行数据组织、整理归纳和重组、存储,以便供BI(经营分析系统)、数据集市,或者数据挖掘使用。数据仓库建设其实就是一个工程,除了需要有优秀的数据库软件和相应的数据仓库模型外,更重要是要有精确的数据源和为按照模型分析统计的作业,并保证作业先后顺序执行的机制,决定这些的关键就在于ETL和调度选择。ETL (Extract-Transform-Load),用于描述把数据由来源端通过抽取(extract)、转置(transform)、加载(load)到目的端的过程;目前,市场上有很多成熟的ETL产品,从来源厂商来看,主要分为两种:一是数据库厂商自带的ETL工具,例如Oracle warehouse builder、 Oracle Data Integrator;另一种是第三方工具提供商,例如:Ascential公司的Datastage、Informatica公司的Powercenter、NCR Teradata公司的ETL Automation Kettle等。这些产品都有各自优缺点,要么工具各个方面都比较优秀,但价格不菲;要么就是不便维护,功能偏弱,达不到ETL要求,特别是对于作业调度方面,难以实现高效工作流配置。因此,本文以作者多年的电信和银行的ETL经验,用市场上最普遍的ORACLE为数据库平台,参考ORACLE官网文档,借用ORACLE自身DBMS_SCHEDULER调度和DBLink批量抽取数据等优秀功能,用最基本的PL/SQL语言来开发实现ETL与调度功能。:本次研发的结果代码在ORACLE10G版本可直接部署运行,是一款运维简单、性能高效、可扩展且无需额外购买第三方和单独服务器的小型ETL工具。
其他文献
近些年来,人口老龄化问题已经逐渐变成中国乃至全球性的社会性问题。随着独生子女比例的大幅上升,现代化、城市化的脚步加快,老人无人看护成为了社会越来越普遍的问题,虽然人们的
烯烃配位聚合催化剂目前已经成为了高分子化学领域中的一个重要分支,同时它也是聚烯烃行业生产发展的基础。其中茂金属催化剂不仅以其优越的催化性能正在占领越来越多的市场份
随着世界经济的一体化和世界贸易自由化进程的加快,知识经济发展迅速,专利技术在国际贸易中的地位越来越重要,专利制度也更趋于现代化、国际化。因此,我们不仅要了解中国的专
随着车辆的不断增加和超载现象的加剧,车辙已成为沥青路面破坏的主要形式之一,严重的影响了道路行车舒适性和道路安全性。因此有必要对沥青路面的车辙进行合理的预估,本文有针对
随着石油天然气开采速度的加快,注水开发的深入,产出液中的含水率越来越高,油田水结垢问题对油田的正常生产造成的影响越来越明显。本文以酒东油田水分析资料为基础资料,开展
发展小微企业对增加财政收入、提高就业水平、推动科技创新等有着重要作用,随着我国经济的持续快速发展,小微企业的地位也日益提升,成为国民经济的重要组成部分。但由于受到诸多
<正>一、文献综述近年来,很多学者都从定性和定量分析两方面对影响高等教育经费投入的诸多因素进行了探讨。通过对现有文献的梳理,发现其中大部分相关文献集中于对高等教育经
社会主义核心价值观是中国人民的最大公约数,它在思想理论教育中占据核心地位,起着“凝魂聚魄,强基固本”的基础作用,具有指向性、导向性和标准性的功能。厘清社会主义核心价值观
随着近几十年来人们生活水平的不断提高,对果蔬品质的要求也不断提升,在贮运果蔬的过程中,温度载荷和力学载荷会对果蔬造成损伤,本文以萝卜细胞、苹果组织和马铃薯细胞等典型
目的:通过调查随访早期乳癌乳癌改良根治术后Ⅰ期假体植入乳房重建患者生活质量及乳房外形满意度,得出Ⅰ期假体植入乳房重建的应用价值。方法:选取我科于2012年9月至2015年2月