论文部分内容阅读
一、引言
在今天激烈的市场竞争中,好的商业决策是取胜的关键。各个组织都在试图寻找提高决策判断的能力,但这又往往受阻于从各种操作和产品系统中进行大量复杂的数据提取。而近年来,计算机应用,开始向两个不同的方向拓展:一是广度计算;二是深度计算。广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征。深度计算则是要求计算机对现有的数据,进行分析和推理,也就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。这与市场的需求不谋而合,从而导致了决策支持系统(DSS)的产生。
最初的决策系统是建立在数据库系统基础上的。但随着数据量的增长和查询的复杂化,这种基于数据库的DSS出现了许多难以克服的问题。为了解决这些问题,人们进行了不断的探索和尝试,逐渐形成了数据仓库的思想。数据仓库从根本上解决了这些问题,并且现在已经在许多行业得到了广泛的应用。
二、什么是数据仓库
“数据仓库(Data Warehouse)”的概念是在1992年,由W.H.Inmon在其《建立数据仓库》一书中提出的。W.H.Inmon认为数据仓库是面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策。数据仓库是指整体的信息存储。这些信息从其他系统收集而来,并且成为决策支持和数据分析的基础。尽管有许多类型的数据仓库,它们以不同的设计方法为基础,但却都有一些共同的特点。
1.数据仓库的特点。根据数据仓库的定义,数据仓库有以下特点:面向主题的;(2)集成的;(3)非易失的;(4)随时间变化的。
数据仓库同数据库相比,还有其他特点。如数据仓库为了能够在尽量短的时间内将数据呈现给使用人员,使用了“空间换时间”的技术,牺牲了数据的规范化、增加了数据的冗余度,从而减小系统的响应时间。此外,在数据仓库环境下系统的硬件资源常常在高利用率和低利用率之间切换。当系统进行数据应用分析时,硬件利用率很高,而系统空闲时,系统利用率很低。
2.数据仓库的处理。从信息技术角度看,数据仓库的目标是为组织的相关个体及时传递正确的信息。这是一个不断发展的过程,而不能一时定论,要求对不同的面向事务的系统有不同的解决方案。数据仓库为了支持决策而进行数据的收集,具有面向事务的综合性、时变性等特征。
数据仓库是通过使用一致性的命名习惯、量度、物理属性和语义来综合数据操作的。在数据仓库的物理设计中,第一步就是决定包含什么领域的事务,并开发一套一致性的定义。这需要与最终用户交流,以理解和记载相关领域的知识,在逻辑过程转化为物理数据仓库之前,必须做好这一步。
在操作系统中,数据被访问时有精确的即时值。例如:一个有关订购的应用程序能为每個产品显示出当前值,不同的查询时机,值可能有所不同。在数据仓库中,数据代表的是一段时间内信息的收集情况,在某段范围内它是精确的。
最后信息被用来浏览、分析及报告,许多工具都可以用来帮助分析,从简单的文书抄送,到高级的数据采集。员终,分析将驱动数据仓库进行循环处理,以提高系统的性能,允许新的类型分析等。总之,这些过程将伴随着数据仓库的整个生命周期。
三、数据仓库的组成部分
数据仓库是一种环境,而不是一种产品,它主要有以下几个部分组成:
1.数据仓库工具。数据仓库最终的目标是尽可能让更多的公司管理者方便、有效和准确地使用数据仓库这一集成的决策支持环境。数据仓库工具可以分为四个互不相关的大类:分析工具、开发工具、实施工具和传递工具。在这四种工具中,分析工具最重要。
(1)分析工具主要用于分析阶段,尤其是研究目前的业务环境时,它们有助于数据要求的确立识别信息获取层的主要数据来源和建立数据模型。主要包括:CASE工具、扫描仪、数据纲目库。
(2)开发工具会在为信息获取、数据清洁、数据集成和数据仓库的加载,而进行代码生成时向开发人员提供帮助。这类工具主要包括:代码生成器、数据纲目库。
(3)实施工具有助于数据仓库实际的清洁、合并和加载数据的工作。一些开发商提供了用于数据清洁、数据复制和现行数据集成的方法和实施工具。如果由项目小组来选择,那么有些工具的选择范围就可以有所扩大。
(4)传递工具的作用是向传递平台进行数据转换、数据衍生、数据加载和提供报表。主要的传递工具有下面几种:数据加载器、数据词汇表、查询和报表生成。
2.数据集市。人们在早期开发企业级数据仓库时,一般是先建立一个全局的数据仓库结构,然后在这一全局数据仓库基础上建立各种应用。但是在开发的过程中,人们发现了一些问题:按这种方法建立全局数据仓库,建设规模往往较大,建设周期长、投资大;在全局数据仓库建立好后,随着使用数据仓库部门的增多,对数据仓库资源的竞争将成为企业所面临的一个难题。各个部门希望能按自己的需要定制全局数据仓库中的数据,但全局数据仓库中的数据是面向企业中所有部门的,它不可能专为某一部门的应用而定制。为了解决上面的问题,人们提出了数据集市的概念,它更精练,更面向主题。
一般来说,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对—组主题的应用系统。由于每个部门有自己特定的需求,因此他们对数据集市的期望也不一样。一般来说,数据集市中数据库的设计采用星形连接。这种结构对部门用户而言是最好的,但对企业范围而言则不然。
3.关系数据库。关系数据库是现在普遍使用的一种数据库,是数据仓库的数据来源之一。包括关系模型、关系数据语言、关系操作等。在这里我就不详细论述。
4.数据源。数据源一般有一下几个部分,如下图所示:
产品数据指的是应用程序收集到的,并保存在运作数据库中的信息,这些运作数据库可以是多种技术的,如关系的、非关系的、基于文件的等。
遗留数据是脱机的数据或档案数据,它不必支持当前运作的应用程序,但对于趋势分析具有重大的历史价值,必须用适当的应用程序将其传入数据仓库。这种数据对于数据挖掘也是有用的。
这是数据的来源,它并不存储于当前运作的数据库中,也不用于运作的商业应用程序。一般来说,这种数据有以下几种:非结构化的(例如电子形式的)、结构化的(例如报表图表,电子表格及字处理文档的形式)、半结构化的(例如年度的报表或SEC文档的形式)这种数据对于支持跨部门的分析是非常有用的。
数据源结构图
这些数据源不受企业控制,不为企业独有或随意操作,可以是电子形式的,或者是来自市场研究部门的竞争分析简报。另外,它们还可以是非电子形式的文章或竞争报表。外部系统的数据来源还包括行业数据。
元数据是关于数据源的明确信息,它包括从数据源中所抽取数据的名称、数据内容(域)的定义、创建的日期、数据的来源。在内部办公系统和外部系统中,元数据还可以包括摘要描述、存储定位,以及文档数据的存取和控制参数等。
5.显示服务。数据仓库最终成功与否,取决于用户能否从数据仓库提取想要的数据,即数据仓库怎样显示数据,从而形成一种信息。在最终用户访问方法的设计中,应详细说明并规划最终用户对数据仓库进行访问的类型,确定如何从外部观察点访问数据。
开发数据仓库应用程序往往是为了支持维分析决策系统,所以要进行维分析设计,这类访问方法有时也被称作“立方旋转”,多半是配置买来的工具的问题;有时,想要组织开发自己的访问工具,这个活动便规定了用户为了查看各种业务度量所使用的方法。大多数工具都包含了如下几类功能:经理信息系统、决策支持系统、报表生成工具、特别查询、应用程序开发、电子报表分析、统计分析、数据挖掘。
6.最终用户分析。用户对数据仓库设计和开发工作的每个方面都十分重要。他们应当参加选择项目、收集要求、定义数据、证实成本、选择最终用户工具,开发定制DSS应用软件、设计和评审、设计访问数据和将数据移入个人仓库中去的过程、测试和验证,以及开发管理变化要求和度量用户满意度的过程。IT和用户的均衡参与是十分重要的。如果每个阶段中用户都能适当地参与进来,数据仓库的成功就可以确保了。
数据仓库系统以数据仓库为基础,通过查询工具和分析工具,完成对信息的提取,满足用户的各种需求。数据仓库是大量集成化数据的集合,它的主体由关系数据库组成,但某些层次的数据也可以由其他类型的数据(如多维数据)组成。各类分析工具与数据仓库的不同数据层连接。不同的用户可以从不同的数据层次,利用不同的分析工具来提取不同类型的信息。数据仓库兼备数据集成和数据分析的功能,既是对企业原有应用系统缺陷的更正,
四、数据仓库应用前景
当今世界竞争非常激烈,正确及时的决策对企业的生存和发展是至关重要的。越来越多的企业已经认识到,要想在竞争中取胜,必须利用计算机网络技术和数据仓库技术,深层次地挖掘、分析当前和历史的业务数据,以及相关环境的数据,为企业提供快速、准确的决策信息。近年来,数据仓库已经在电信领域、银行领域、证券业、保险、客户管理等众多领域得到了越来越广泛的应用。随着因特网和电子商务的发展,各大数据仓库产品供应商纷纷把注意力投向电子商务领域,并且通过数据仓库技术来构造商业智能平台。
在今天激烈的市场竞争中,好的商业决策是取胜的关键。各个组织都在试图寻找提高决策判断的能力,但这又往往受阻于从各种操作和产品系统中进行大量复杂的数据提取。而近年来,计算机应用,开始向两个不同的方向拓展:一是广度计算;二是深度计算。广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征。深度计算则是要求计算机对现有的数据,进行分析和推理,也就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。这与市场的需求不谋而合,从而导致了决策支持系统(DSS)的产生。
最初的决策系统是建立在数据库系统基础上的。但随着数据量的增长和查询的复杂化,这种基于数据库的DSS出现了许多难以克服的问题。为了解决这些问题,人们进行了不断的探索和尝试,逐渐形成了数据仓库的思想。数据仓库从根本上解决了这些问题,并且现在已经在许多行业得到了广泛的应用。
二、什么是数据仓库
“数据仓库(Data Warehouse)”的概念是在1992年,由W.H.Inmon在其《建立数据仓库》一书中提出的。W.H.Inmon认为数据仓库是面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策。数据仓库是指整体的信息存储。这些信息从其他系统收集而来,并且成为决策支持和数据分析的基础。尽管有许多类型的数据仓库,它们以不同的设计方法为基础,但却都有一些共同的特点。
1.数据仓库的特点。根据数据仓库的定义,数据仓库有以下特点:面向主题的;(2)集成的;(3)非易失的;(4)随时间变化的。
数据仓库同数据库相比,还有其他特点。如数据仓库为了能够在尽量短的时间内将数据呈现给使用人员,使用了“空间换时间”的技术,牺牲了数据的规范化、增加了数据的冗余度,从而减小系统的响应时间。此外,在数据仓库环境下系统的硬件资源常常在高利用率和低利用率之间切换。当系统进行数据应用分析时,硬件利用率很高,而系统空闲时,系统利用率很低。
2.数据仓库的处理。从信息技术角度看,数据仓库的目标是为组织的相关个体及时传递正确的信息。这是一个不断发展的过程,而不能一时定论,要求对不同的面向事务的系统有不同的解决方案。数据仓库为了支持决策而进行数据的收集,具有面向事务的综合性、时变性等特征。
数据仓库是通过使用一致性的命名习惯、量度、物理属性和语义来综合数据操作的。在数据仓库的物理设计中,第一步就是决定包含什么领域的事务,并开发一套一致性的定义。这需要与最终用户交流,以理解和记载相关领域的知识,在逻辑过程转化为物理数据仓库之前,必须做好这一步。
在操作系统中,数据被访问时有精确的即时值。例如:一个有关订购的应用程序能为每個产品显示出当前值,不同的查询时机,值可能有所不同。在数据仓库中,数据代表的是一段时间内信息的收集情况,在某段范围内它是精确的。
最后信息被用来浏览、分析及报告,许多工具都可以用来帮助分析,从简单的文书抄送,到高级的数据采集。员终,分析将驱动数据仓库进行循环处理,以提高系统的性能,允许新的类型分析等。总之,这些过程将伴随着数据仓库的整个生命周期。
三、数据仓库的组成部分
数据仓库是一种环境,而不是一种产品,它主要有以下几个部分组成:
1.数据仓库工具。数据仓库最终的目标是尽可能让更多的公司管理者方便、有效和准确地使用数据仓库这一集成的决策支持环境。数据仓库工具可以分为四个互不相关的大类:分析工具、开发工具、实施工具和传递工具。在这四种工具中,分析工具最重要。
(1)分析工具主要用于分析阶段,尤其是研究目前的业务环境时,它们有助于数据要求的确立识别信息获取层的主要数据来源和建立数据模型。主要包括:CASE工具、扫描仪、数据纲目库。
(2)开发工具会在为信息获取、数据清洁、数据集成和数据仓库的加载,而进行代码生成时向开发人员提供帮助。这类工具主要包括:代码生成器、数据纲目库。
(3)实施工具有助于数据仓库实际的清洁、合并和加载数据的工作。一些开发商提供了用于数据清洁、数据复制和现行数据集成的方法和实施工具。如果由项目小组来选择,那么有些工具的选择范围就可以有所扩大。
(4)传递工具的作用是向传递平台进行数据转换、数据衍生、数据加载和提供报表。主要的传递工具有下面几种:数据加载器、数据词汇表、查询和报表生成。
2.数据集市。人们在早期开发企业级数据仓库时,一般是先建立一个全局的数据仓库结构,然后在这一全局数据仓库基础上建立各种应用。但是在开发的过程中,人们发现了一些问题:按这种方法建立全局数据仓库,建设规模往往较大,建设周期长、投资大;在全局数据仓库建立好后,随着使用数据仓库部门的增多,对数据仓库资源的竞争将成为企业所面临的一个难题。各个部门希望能按自己的需要定制全局数据仓库中的数据,但全局数据仓库中的数据是面向企业中所有部门的,它不可能专为某一部门的应用而定制。为了解决上面的问题,人们提出了数据集市的概念,它更精练,更面向主题。
一般来说,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对—组主题的应用系统。由于每个部门有自己特定的需求,因此他们对数据集市的期望也不一样。一般来说,数据集市中数据库的设计采用星形连接。这种结构对部门用户而言是最好的,但对企业范围而言则不然。
3.关系数据库。关系数据库是现在普遍使用的一种数据库,是数据仓库的数据来源之一。包括关系模型、关系数据语言、关系操作等。在这里我就不详细论述。
4.数据源。数据源一般有一下几个部分,如下图所示:
产品数据指的是应用程序收集到的,并保存在运作数据库中的信息,这些运作数据库可以是多种技术的,如关系的、非关系的、基于文件的等。
遗留数据是脱机的数据或档案数据,它不必支持当前运作的应用程序,但对于趋势分析具有重大的历史价值,必须用适当的应用程序将其传入数据仓库。这种数据对于数据挖掘也是有用的。
这是数据的来源,它并不存储于当前运作的数据库中,也不用于运作的商业应用程序。一般来说,这种数据有以下几种:非结构化的(例如电子形式的)、结构化的(例如报表图表,电子表格及字处理文档的形式)、半结构化的(例如年度的报表或SEC文档的形式)这种数据对于支持跨部门的分析是非常有用的。
数据源结构图
这些数据源不受企业控制,不为企业独有或随意操作,可以是电子形式的,或者是来自市场研究部门的竞争分析简报。另外,它们还可以是非电子形式的文章或竞争报表。外部系统的数据来源还包括行业数据。
元数据是关于数据源的明确信息,它包括从数据源中所抽取数据的名称、数据内容(域)的定义、创建的日期、数据的来源。在内部办公系统和外部系统中,元数据还可以包括摘要描述、存储定位,以及文档数据的存取和控制参数等。
5.显示服务。数据仓库最终成功与否,取决于用户能否从数据仓库提取想要的数据,即数据仓库怎样显示数据,从而形成一种信息。在最终用户访问方法的设计中,应详细说明并规划最终用户对数据仓库进行访问的类型,确定如何从外部观察点访问数据。
开发数据仓库应用程序往往是为了支持维分析决策系统,所以要进行维分析设计,这类访问方法有时也被称作“立方旋转”,多半是配置买来的工具的问题;有时,想要组织开发自己的访问工具,这个活动便规定了用户为了查看各种业务度量所使用的方法。大多数工具都包含了如下几类功能:经理信息系统、决策支持系统、报表生成工具、特别查询、应用程序开发、电子报表分析、统计分析、数据挖掘。
6.最终用户分析。用户对数据仓库设计和开发工作的每个方面都十分重要。他们应当参加选择项目、收集要求、定义数据、证实成本、选择最终用户工具,开发定制DSS应用软件、设计和评审、设计访问数据和将数据移入个人仓库中去的过程、测试和验证,以及开发管理变化要求和度量用户满意度的过程。IT和用户的均衡参与是十分重要的。如果每个阶段中用户都能适当地参与进来,数据仓库的成功就可以确保了。
数据仓库系统以数据仓库为基础,通过查询工具和分析工具,完成对信息的提取,满足用户的各种需求。数据仓库是大量集成化数据的集合,它的主体由关系数据库组成,但某些层次的数据也可以由其他类型的数据(如多维数据)组成。各类分析工具与数据仓库的不同数据层连接。不同的用户可以从不同的数据层次,利用不同的分析工具来提取不同类型的信息。数据仓库兼备数据集成和数据分析的功能,既是对企业原有应用系统缺陷的更正,
四、数据仓库应用前景
当今世界竞争非常激烈,正确及时的决策对企业的生存和发展是至关重要的。越来越多的企业已经认识到,要想在竞争中取胜,必须利用计算机网络技术和数据仓库技术,深层次地挖掘、分析当前和历史的业务数据,以及相关环境的数据,为企业提供快速、准确的决策信息。近年来,数据仓库已经在电信领域、银行领域、证券业、保险、客户管理等众多领域得到了越来越广泛的应用。随着因特网和电子商务的发展,各大数据仓库产品供应商纷纷把注意力投向电子商务领域,并且通过数据仓库技术来构造商业智能平台。