论文部分内容阅读
随着信息化进程的不断推进,大部分企业已经把数据仓库作为企业数据集成的主流技术,为企业提供综合的真实的数据视图。而数据的抽取、转换、加载(Extraction、Transformation、Loading,ETL)是数据仓库技术应用的重要的组成部分之一,直接影响企业数据集成的质量。由于企业数据具有多源、海量和异构等特征,ETL的效率和能否支持异构数据访问和集成是ETL过程中要解决的关键问题。 针对ETL的上述问题,本文采用元数据理论和方法,提出了一种基于元数据控制的ETL方法,并开发了ETL软件工具。具体研究成果如下: (1)针对ETL的实际需求,结合国内外ETL方法和工具的研究成果,采用元数据方法和数据逆追踪方式,提出了一种基于元数据控制的ETL方法,设计了ETL控制元数据结构和ETL流程。经理论分析和实验验证,该方法提高了数据提取精度,减少了数据的重复计算,进而提高了ETL执行效率。 (2)基于上述方法,设计了ETL软件的总体架构,主要包括元数据模块、数据中转区、数据抽取引擎、数据转换引擎、数据加载引擎以及通用数据访问接口等几部分,详细描述架构中各个模块的作用。 (3)利用异构数据统一操作平台,设计了数据访问接口模块,解决了异构数据源的访问问题;采用元数据统一集成操作,设计了元数据管理模块,解决了ETL控制元数据集成管理问题。 (4)实现了ETL软件异构数据源访问及函数运算两个核心模块,给出了具体的实现方案。 本文提出的ETL方法,开发的ETL工具,有效提高了ETL的执行效率,支持异构数据源访问和集成。对于企业进行异构数据集成,快速构建数据仓库具有较高的实用价值;对于数据仓库和元数据的应用研究具有一定的参考价值。