论文部分内容阅读
在企业中,经过若干年信息化工作后,企业中保留了大量历史数据。在第一代数据仓库建立后,企业已经可以利用存在的历史数据来做事务性数据的分析工作。但随着数据生产成本的不断降低,人类生产数据的数量正在飞速增加,整个社会正处在数字大爆炸的时代,从而使企业的生存环境发生了巨大的变化。对于企业而言,如何去适应这种变化已经变为能否在行业中保持领先的决定性因素之一。第一代数据仓库已显现出非结构化数据处理、容量、经济性等问题,不能再满足企业对数据存储与分析的需求。本文的主要目的是在第一代数据仓库的基础上,通过引进第二代数据仓库(DW2.0)架构,并结合当前流行的并行处理计算技术,来实现第二代数据仓库的应用。论文介绍了实现第二代数据仓库的技术背景,设计了数据仓库平台的总体架构,详细描述了数据仓库平台中各个组成部件并进行了总体设计,实现了第二代数据仓库中的三个关键技术。它们分别是:1)并行数据处理技术实现,包括硬件组成与数据库软件的使用,并行数据处理的实现使企业能在成本有限增加的前提下,实现对大数据量和高性能存储与分析的需求;2)对非结构化数据存储与分析的技术实现,使企业能够对占企业数据量60%的非结构化或半结构化数据进行分析,帮助企业利用所有企业中的数据并获取价值;3)根据数据仓库中数据的使用概率和访问模式,将数据分为交互区、整合区、近线区与归档区四个区域进行数据生命周期管理,用以提高数据仓库的性能。论文将以实例的方式来说明第二代数据仓库将如何有效支持企业战略决策工具BSC(平衡计分卡)系统的运行。BSC系统是帮助企业化战略为行动的管理体系。BSC项目的主要作用是将企业的战略目标划分为财务、客户、内部流程、学习与成长四个基本方面,由BSC战略地图将以上四个基本目标划分为互为因果的具体指标,通过对指标的高质量执行与评估来提高企业的管理水平。第二代数据仓库的实施将为BSC系统提供全面的数据支持,这些数据不仅包括来自企业ERP系统的结构化数据也包括企业在运行过程中产生的非结构化数据。将结构化数据与非结构化数据进行综合分析后,可以揭示出企业在运行管理过程中被忽略的重要信息,帮助企业获得更加精确有效的BSC指标评分,有利于企业不断改进企业流程与管理方法,从而提升企业的核心竞争力。