论文部分内容阅读
在企业管理中,经理人员总是希望能随时随地访问到任何他们需要的信息,这就要求有一个体系结构来容纳各种格式的内部数据和外部数据,例如经营数据、历史数据、现行数据以及来自Internet服务提供商(ISP)的数据,此外还应该包含易于访问的元数据。今天的企业要求能够访问并综合来自各种数据来源的数据,能够通过充分挖掘现有的数据资源,捕捉、分析和沟通信息,进行复杂的数据分析,创建能代表业务分析员对数据看法的数据视图,通过概括、细化展示、多层次多视角地察看跨主题和跨业务范围的信息,发现许多过去缺乏认识或者未被认识的数据关系,帮助企业管理者做出更好的商业决策,例如开拓什么市场、吸引哪些客户、促销何种产品等。而所有这些数据采掘活动都必须建立在一个结构良好的数据仓库的基础之上。一项来自美国Meta Group的市场分析指出,92%的企业将在今后3年内使用数据仓库,到2000年,全球数据仓库的使用者将达到1000万,数据库访问Internet和企业内部网所带来的投资回报率达68%。
企业在开展业务的同时,获得了大量的数据,来自国外的统计结果表明,全球企业的信息量平均每1.5年翻一番,而目前仅仅利用了全部信息数据的7%。随着知识经济时代的来临,记录客户数据和市场数据的信息和信息利用能力已经成为决定企业生存能力的关键。
在现代组织中,信息系统需要支持至少四个层次的分析处理工作。第一个层次是对当前数据和历史数据的简单查询和报表生成,这部分工作通常由电子报表、查询工具和报表生成工具实现。
第二个层次则深入进行跨数据来源的“what ...if (如果……会怎样)”处理。例如,如果第二年劳动力成本提高5%,而销售额保持不变,那么利润会发生怎样的变化?电子报表、查询工具和数据库技术就能解决这些问题。
第三个层次的分析要分析过去发生过什么事件使得数据呈现目前的状态。例如,为什么一月份东北地区的咳嗽糖浆销售量突然提高,而其他地区却没有变化?是因为东北地区的营销活动特别有效,还是因为那里正在蔓延流行性感冒?要回答这些问题,就得对内部数据和外部数据进行复杂的处理。这一层次的查询活动中对外部数据的需求逐渐增加。例如,信用卡公司希望在某家大公司裁员时了解潜在的失业情况,因为这会影响持卡人的支付能力,从而影响到公司的坏帐金额。但是目前还没有技术能够支持这类自动分析。
第四个层次是要分析过去发生了什么时间以及未来要完成什么工作才能实现某种特定的目标。例如,如果明年的目标是利润增长5%,那么要有哪些前提条件发生变化以及还要在未来采取哪些措施才能实现这个目标?目前,IBM等开发商正在努力提供支持这种需求的商业智能解决方案。据IDC公司的调查结果表明,企业用于商业智能的投资回报率平均2.3年就高达400%。美国Palo Alto管理集团预测,到2001年,全球商业智能市场的需求将达到700亿美元。
对很多公司而言,数据仓库使他们从一个全新的角度认识到了信息系统的用处。但实际经验却反映出了数据仓库令人不满的一面。通过对数据仓库项目实施情况的考察,可以看到,失败和挫折主要来自对数据仓库的概念缺乏应有的了解。
W.H. 因蒙将数据仓库明确地定义为:
数据仓库是集成的、以主题为导向的数据库集合。它是用来支持决策支持功能的,其中每个数据单位都与时间相关。
这就是说,数据仓库是支持决策并具有以下特征的数据库:
* 以主题为导向
以主题为导向的数据仓库要求进行数据库设计。主题数据库是围绕着企业的基本实体组织设计出来的,它要求在数据驱动下进行数据库设计,仅靠顺应或发展已有的联机事务处理(OLTP)文件结构和数据库是无法做到这一点的。
* 集成的
“集成数据”意味着随后还要运用一些设计过程或方法来建立数据仓库的各个数据库。在命名协议、关键字、关系、编码和翻译中的一致性只能通过设计取得。主题数据库和数据仓库所要求的高度集成性强调,企业只有规划好大量的设计工作、制定预算并把项目进行到底,才能真正成功地建立起数据仓库来。
* 随时变化
“随时间而变化”意味着数据仓库的设计要按照不同时期来组织数据。要从瞬时数据分析中衍生出数据值来,这一点极为重要。数据仓库中的数据通常是按照某一固定时间段进行总结的,例如按月、按季度或者按年。 * 相对稳定
说数据仓库的数据是“相对稳定”的,意思是说数据仓库里的数据不进行实时更新。一般说来,数据是每夜或每周升级进入数据仓库中取得。这一升级过程包括复杂的数据提取、数据概括、数据聚集和数据老化过程。数据一旦进入了仓库中,就不能再由用户进行更新了。数据仓库中不包含必须在白天或者必须进行实时更新的数据。许多企业之所以遇到困难就是因为他们允许对数据仓库进行实时更新,而且认为这是以数据仓库为依据的决策要求的。从这里就可以看出,企业并没有理解数据仓库在制定决策中的作用到底是什么。
数据仓库最常见的问题并不出在技术上,而往往在于企业对新技术的认识不足,这和信息技术在人们还不适应它时遇到的情形一样。有些公司把数据仓库当作本公司的第一个客户机/服务器项目来做,却没有再进行这样一个大项目之前先实施一个小项目。这样贸然上路必然会遇到很多意想不到的挫折。
理解数据仓库的概念时非常重要的,如果数据仓库是信息技术行当中从一种新技术自发产生的许多新技术之一,那么数据仓库概念不为人所知也还情有可原。但数据仓库来自于已经应用了十几年之久的决策支持系统(DSS)思想和技术,对它也早已有了明确、细致的分析和定义,因此不去理解数据仓库的概念就打算着手实施一个大型仓库项目是不应该的。
数据仓库必须有良好的定义、设计和编纂。任何一个有心利用这种体系结构改善管理决策的企业都应当先理解它,在按照自己的实际情况对它加以修改,使之适合本企业的需要,让这种强大的决策支持工具发挥出巨大的威力。
企业在开展业务的同时,获得了大量的数据,来自国外的统计结果表明,全球企业的信息量平均每1.5年翻一番,而目前仅仅利用了全部信息数据的7%。随着知识经济时代的来临,记录客户数据和市场数据的信息和信息利用能力已经成为决定企业生存能力的关键。
在现代组织中,信息系统需要支持至少四个层次的分析处理工作。第一个层次是对当前数据和历史数据的简单查询和报表生成,这部分工作通常由电子报表、查询工具和报表生成工具实现。
第二个层次则深入进行跨数据来源的“what ...if (如果……会怎样)”处理。例如,如果第二年劳动力成本提高5%,而销售额保持不变,那么利润会发生怎样的变化?电子报表、查询工具和数据库技术就能解决这些问题。
第三个层次的分析要分析过去发生过什么事件使得数据呈现目前的状态。例如,为什么一月份东北地区的咳嗽糖浆销售量突然提高,而其他地区却没有变化?是因为东北地区的营销活动特别有效,还是因为那里正在蔓延流行性感冒?要回答这些问题,就得对内部数据和外部数据进行复杂的处理。这一层次的查询活动中对外部数据的需求逐渐增加。例如,信用卡公司希望在某家大公司裁员时了解潜在的失业情况,因为这会影响持卡人的支付能力,从而影响到公司的坏帐金额。但是目前还没有技术能够支持这类自动分析。
第四个层次是要分析过去发生了什么时间以及未来要完成什么工作才能实现某种特定的目标。例如,如果明年的目标是利润增长5%,那么要有哪些前提条件发生变化以及还要在未来采取哪些措施才能实现这个目标?目前,IBM等开发商正在努力提供支持这种需求的商业智能解决方案。据IDC公司的调查结果表明,企业用于商业智能的投资回报率平均2.3年就高达400%。美国Palo Alto管理集团预测,到2001年,全球商业智能市场的需求将达到700亿美元。
对很多公司而言,数据仓库使他们从一个全新的角度认识到了信息系统的用处。但实际经验却反映出了数据仓库令人不满的一面。通过对数据仓库项目实施情况的考察,可以看到,失败和挫折主要来自对数据仓库的概念缺乏应有的了解。
W.H. 因蒙将数据仓库明确地定义为:
数据仓库是集成的、以主题为导向的数据库集合。它是用来支持决策支持功能的,其中每个数据单位都与时间相关。
这就是说,数据仓库是支持决策并具有以下特征的数据库:
* 以主题为导向
以主题为导向的数据仓库要求进行数据库设计。主题数据库是围绕着企业的基本实体组织设计出来的,它要求在数据驱动下进行数据库设计,仅靠顺应或发展已有的联机事务处理(OLTP)文件结构和数据库是无法做到这一点的。
* 集成的
“集成数据”意味着随后还要运用一些设计过程或方法来建立数据仓库的各个数据库。在命名协议、关键字、关系、编码和翻译中的一致性只能通过设计取得。主题数据库和数据仓库所要求的高度集成性强调,企业只有规划好大量的设计工作、制定预算并把项目进行到底,才能真正成功地建立起数据仓库来。
* 随时变化
“随时间而变化”意味着数据仓库的设计要按照不同时期来组织数据。要从瞬时数据分析中衍生出数据值来,这一点极为重要。数据仓库中的数据通常是按照某一固定时间段进行总结的,例如按月、按季度或者按年。 * 相对稳定
说数据仓库的数据是“相对稳定”的,意思是说数据仓库里的数据不进行实时更新。一般说来,数据是每夜或每周升级进入数据仓库中取得。这一升级过程包括复杂的数据提取、数据概括、数据聚集和数据老化过程。数据一旦进入了仓库中,就不能再由用户进行更新了。数据仓库中不包含必须在白天或者必须进行实时更新的数据。许多企业之所以遇到困难就是因为他们允许对数据仓库进行实时更新,而且认为这是以数据仓库为依据的决策要求的。从这里就可以看出,企业并没有理解数据仓库在制定决策中的作用到底是什么。
数据仓库最常见的问题并不出在技术上,而往往在于企业对新技术的认识不足,这和信息技术在人们还不适应它时遇到的情形一样。有些公司把数据仓库当作本公司的第一个客户机/服务器项目来做,却没有再进行这样一个大项目之前先实施一个小项目。这样贸然上路必然会遇到很多意想不到的挫折。
理解数据仓库的概念时非常重要的,如果数据仓库是信息技术行当中从一种新技术自发产生的许多新技术之一,那么数据仓库概念不为人所知也还情有可原。但数据仓库来自于已经应用了十几年之久的决策支持系统(DSS)思想和技术,对它也早已有了明确、细致的分析和定义,因此不去理解数据仓库的概念就打算着手实施一个大型仓库项目是不应该的。
数据仓库必须有良好的定义、设计和编纂。任何一个有心利用这种体系结构改善管理决策的企业都应当先理解它,在按照自己的实际情况对它加以修改,使之适合本企业的需要,让这种强大的决策支持工具发挥出巨大的威力。