论文部分内容阅读
过去的二十年是信息科技行业发展的黄金时期。摩尔定律下的互联网以及计算机软、硬件条件的不断成熟,促使着各行各业都迈入了信息化、电子化的运作模式。大量的日常业务数据被存储在企业的业务系统中,随着时间呈现爆炸性的增长。如何有效地利用这些历史数据,为企业管理人员提供决策的依据,即知识,从而发展新业务,创造新利润,成为技术专家亟需研究的问题。商业智能、数据仓库和数据挖掘等概念便是在这种应用背景下被提出的。ETL (Extract, Transform and Load),即数据的抽取、转换和加载,是商业智能的心脏和灵魂。ETL过程抽取日常业务系统中积累的历史数据,转换成特定格式,加载到预先设计的数据仓库,以方便下游系统进行特定需求的查询、分析,典型的如在线分析处理OLAP系统。据调查,ETL应用的设计与开发工作占据整个商业智能项目60%到80%的时间。对于占据如此大比例的工作,如何提高它的效率对于一个商业智能项目是极其关键的。可以从很多方面着手来提高ETL应用的设计与开发效率,例如选择恰当的软件工程模式、选择合适的ETL工具等。本文着重从两个方面提高ETL应用的软件工程效率。一方面,通过设计一个自动化ETL开发框架,帮助ETL开发人员完成大量简单重复的ETL开发工作以提高效率;另一方面,从ETL应用的部署角度切入,在详细讨论了传统的ETL部署过程,指出其所存在的问题,并分析其原因的基础上,设计实现了一个自动化ETL部署框架。运用这一自动化部署框架可以极大的缩减ETL部署时间,加快软件工程的过程,提高ETL设计及开发效率。在实际项目中的运用证明本文提出的ETL自动化部署框架是可行的。