论文部分内容阅读
本文首先介绍了数据仓库技术的基本概念和特点,然后简单介绍数据仓库的体系结构和数据组织。接着介绍了设计和实现数据仓库ETL(抽取/转换/装载)处理过程。文章讨论了数据抽取、数据清洗、数据装载、数据转换的方法和策略。若要从数据仓库中做出有意义的分析,则数据仓库中必须要有一定数量的历史数据。为了缩短历史数据积累的时间,本文在这一部分着重讨论了如何在数据仓库中的导入档案数据。要在数据仓库中导入档案数据必须考虑导入的速度问题。在对比分析了档案数据顺序导入、逆向导入和并行导入三种方法的基础上,着重介绍了并行导入方法的策略。提出了基于客户机/服务器模式的档案数据并行导入的方案。在整个处理流程中,数据整合是实现并行导入的关键步骤,详细描述了历史数据并行整合的方法。最后,通过模拟实验对并行性的性能进行了分析讨论。
通过导入档案数据来快速提高数据仓库的数据量,是数据仓库技术发展到一定阶段后的必由之路。本文提出的并行导入方案大大加快导入档案数据这一工作的效率,使得数据仓库在最短时间内最大限度的提高了数据量,从而进行有效的决策分析。随着企业竞争的加剧和数据仓库技术水平的提高,导入档案数据方案及相关技术将会被越来越多的企业所应用。