论文部分内容阅读
如何有效的管理企业在运营过程中产生的大量数据和信息一直是信息系统工作人员面临的重要问题。数据仓库不同于传统运作的事务处理,它们在开发方法、事务处理方法、事务所访问的数据量及数据存储方式等方面有着根本性的区别。本文从数据仓库技术中重要的基本概念入手,详细介绍了在搭建数据仓库过程中几个关键技术:数据抽取、存储管理和数据表现。数据集市同样是数据仓库系统中不可缺少的组成部分。星型模型是数据仓库的数据模型设计一个补充部分,目前数据仓库系统多建在关系数据库之上,所以星型模型是由关系模型模拟多维数据模型的表示和存储,提高了数据仓库访问效率。 数据仓库的系统结构有两种类型:三层结构和两层结构。通过分析这两种结构的优缺点,从而提出了一个新的系统结构:可扩展的系统结构。这种结构可以认为是首先利用了两层结构的较简单和较廉价的优点,同时定义了一种结构路线图。随着需求的不断增加,此线路图允许这种两层结构逐渐的转换为所需要的最为强健的三层结构。明珠数据仓库系统就是采用了可扩展的系统结构,首先从一个主题域——财务主题域入手,而后分别建立了其他三个主题域:部门、商品和配送。 最先建立的财务主题域是个数据集市,它的物理数据库采用了ORACLE关系数据库,而数据集市的数据表现是由POWERBUILDER开发的报表系统。在这部分的论述中,我重点介绍了财务主题域的星型模型建立过程。依据“同等对待多维模型的维和变量”的观点,确定了这个主题域的维结构,同时分析了各个维上独特的层次结构。数据抽取、转换和加载也是重点之一。我详细的分析了在抽取和装载数据到数据仓库过程中所需要解决的问题。我们自行开发的数据表现形式——报表系统,主要特点是应用一个三维结构表现财务主题的多维结构,为财务决策人员提供基于财务报表的数据决策支持。 北京工业大学工学硕士学位论文一 由于部门、商品和配送三个主题域的加入,使得明珠数据仓库系统完整的形成了三层数据仓库结构。其中,部门主题域的建立后台数据库依然是ORACLE,数据分析和表现采用了COGNOS 公司的工具。