论文部分内容阅读
[摘 要]数据仓库技术是在充分地开发信息资源的迫切要求下产生并迅速发展起来的一个国际前沿研究新领域。本文提出了在数据仓库基础上建立决策支持系统的体系框架,论述了基于数据仓库决策支持系统的优点, 最后结合实例介绍了该系统的具体应用,为知识的智能获取提供了新的手段。
[关键词]数据仓库 数据挖掘 知识库 知识发现 决策支持系统
决策支持系统(DecisionSupportSystem,DSS)的概念于20世纪70年代初由美国MichaelS.scottMorton在《管理决策系统》一文首次提出,20世纪80年代中期引入我国。20多年来,决策分析系统已在理论研究、系统开发和实际应用诸方面取得了令人瞩目的进步,并呈现出积极的多元化的发展态势。
随着社会经济的发展和多样化,决策者为了能够尽快调整策略,需要一个决策系统以辅助解决各方面的问题,也就是说需要一个能够自动进行调整来满足决策者需求的系统。本文提出在数据仓库基础上建立一个决策支持系统。
一、数据仓库技术
数据仓库(DataWarehouse,DW)技术是在传统数据库技术的基础上发展起来的,是现代计算机系统信息处理技术的热点之一,它的出现给决策支持系统的发展注人了新的活力。与传统数据库面向OLTP进行数据组织的特点相比,数据仓库的数据具有面向主题的、集成的、随时间不断变化的、不可更新的四个基本特征。数据仓库的主要功能是把决策所需的信息从原始业务操作数据中分离出来,把分散的、难以利用的原始业务操作数据转化为集中统一、随时可用的信息,同时提高访问和处理数据的速度和效率。
数据仓库系统不是一个简单的由各种数据合并而成的超大型数据库,其建立也不是要取代传统数据库,它应建立在一个较全面和完善的信息应用的基础上,为高层决策分析提供支持。数据仓库是一种专为联机分析应用和决策支持系统提供数据源和决策工具的结构化数据环境,通过运用其中的数据与信息,企业能获取更多经营效益。比如,企业可以从数据仓库中进行利润增长分析,了解产品和服务间的关系、利润、产品线等,有利于指导决策,提高效益。
二、决策支持系统
决策支持系统是在信息管理系统的基础上建立起来的,弥补了管理信息系统的不足,适应了人们对于信息管理向智能化方面的发展。决策支持系统可以为决策者提供及时、准确、科学的决策信息。决策支持系统的体系结构最初包括三个部分:数据库、模型库和用户接口。该系统结构反映了人们对于当时决策支持的要求,但是还有很大的局限性,只强调数据、模型和两者的集成,而且进行的主要是数学运算,对于有些知识和经验却不能很好处理。随着人们需求的提高,要求决策支持系统不再仅仅在模型的基础上利用数据库中的数据进行计算,而要求能够进行一些必要的推理,进一步降低人的参与,提高决策支持系统的智能性。与决策支持系统同步发展的专家系统为决策支持系统的智能化发展提供了有限的支持,决策支持系统吸收了专家系统在知识学习和推理方面的特点,增加了知识库部分,可在某些方面进行推理和知识的学习。
三、基于数据仓库决策支持系统
目前新兴的数据仓库和数据挖掘技术为决策支持系统的智能化发展提供了新的方法,开创了决策支持系统发展的新阶段。作者在开发决策支持系统的实践中提出了一种基于数据仓库的决策支持系统体系结构,能够较好地解决决策支持系统智能化的自适应功能。图1所示为基于数据仓库的决策支持系统体系结构框图。它主要由两部分组成,一个是比较传统的决策支持系统,另一部分是数据仓库和数据挖掘,这两部分只是形式上放在了一起,实际上并不完全独立,而是紧密结合起来的。传统的决策支持系统部分主要负责决策支持,通过对模型库、方法库、知识库和数据仓库的模型、方法、知识、数据处理提供相应的辅助决策支持,这也是决策支持系统的功能所在;而数据仓库和数据挖掘部分则是该系统的智能化的核心,数据挖掘处理单元通过对数据库中数据采用有关的方法,结合相关的知识和规则进行数据挖掘,获取有用的知识、规则和模型。在这里数据仓库和决策支持系统得到了比较完美的结合。
1.系统基本结构
数据仓库技术和数据挖掘技术相结合建立的辅助决策系统是决策支持系统(决策支持系统)的新型式,使决策支持系统的发展跃上了一个新的层次其系统结构如图1所示 其中 数据仓库用于数据的存储和组织 OLAP 侧重于数据的分析。数据挖掘则致力于知识的自动发现 将这三种技术有效地结合起来发挥它们各自的特长和互补作用 就能设计出企业决策支持系统的可行方案。
采用这种模型后,决策支持系统通过上述三种技术后结构变的更加紧凑,而且更重要的是将数据仓库和 OLAP 结合后能将普通的大量信息转换成有价值的辅助决策信息,OLAP 是一种对多维数据库分析和处理更加有效的数据分析技术,它具有强大的分析功能,可以提供给用户强大的统计、分析和报表处理功能及进行趋势预测的能力,从宏观到微观对数据进行深入分析 行不同维间的比较等等。
数据挖掘工具运行于高性能的并行处理系统上,可以使分析数据更加准确和深入,在深度上进行延伸,深入的分析能够发现一些潜在的信息在广度上进行扩展,扩大的样本降低了错误发生率利用数据挖掘技术可以自动地找出数据仓库中的模式及关系,数据挖掘就是知识的提取 知识的提取过程即为决策支持过程。
2.系统设计关键技术
(1)数据仓库设计
政府数据仓库结构的设计要从决策目标出发合理安排各元素,保证数据仓库的规范化和完整体系。数据仓库设计的各个数据定义均保存在元数据库中。数据仓库的数据结构一般采用星型模型和数据模型。首先是要定义各主题及其所需数据源;数据源分内部、外部数据源,其涉及属性有计算机平台、数据拥有者、数据结构、使用该数据源的处理过程、仓库更新计划等。其次是要定义数据抽取、提炼和装载原则。最后是细化主题,形成主题表,根据主题表定义数据集市。
(2)数据预处理
数据预处理的主要任务是对来自不同平台的数据进行分析、处理,找出不一致的数据,进行清洗、转换、再加工等,再装载到数据仓库。具体步骤分为两步:首先是对DB1, DB2,……,DBn的数据进行提取、清洗、标准化、集成等,将不一致的数据转化成一致的数据;在这一过程中,可以建立一个名字映射表。其次,在组织不同来源的数据过程中,先将数据转换成一种中间模式,再把它移至临时工作区。最后是将不一致的数据转化成标准的、一致化的数据后,将其存人数据仓库的数据区。
(3)数据管理
数据仓库规模一般都很大,从建立之初就要保证它的可管理性,一个政府机构可能建立几个数据仓库或数据集市,但他们可共用一个元数据库对其进行管理。首先从元数据库查询所需元数据,然后进行数据仓库更新作业,更新结束后,将更新情况记录于元数据库中。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。元数据是数据仓库的重要组成部分,元数据的质量决定整个数据仓库的质量。
四、决策支持系统在税务上的应用
税务部门是一个数据密集型部门,数据管理任务繁重,需要高效的数据管理工具。一方面,税务部门几乎每天都要产生大量的原始数据,需要及时对这些数据进行处理和保存,并且,从税务登记到税务申报再到 税务核定等一系列过程中,对数据需要反复使用;另一方面,税务各部门领导需要分析税务,了解税收情况,以便作出有效工作安排。因此,数据的有效管理是一个非常重要的任务,有必要建立以数据仓库和OLAP系统技术为基础的决策支持系统。
税务系统整体规划的功能及系统体系结构可以概括为以下几方面:
1.系统可实现的功能
(1)建立面向整个税务系统的数据仓库,包括从操作数据库存到数据仓库的抽取转换模块、面向主题的数据仓库、特定需要的数据商场、元数据库、元数据浏览程序等;
(2)建立基于数据仓库的应用系统,包括报表查询系统、通用查询系统、区域经济分析系统、网上在线分析系统、基于地理信息系统的税务分析系统等OLAP工具。
2.数据分析
该系统可完成税务征收数据的采集和加工,构成可供本单位及其它政府部门共享的时间系列数据库。数据主要来自终端征收系统。指标主要包括税收额、税基和纳税户,税收额按性质又分为应交税金、实交税金、退税额、补税额和未交税额,每个指标又可按要求分时段指标,如年指标、月指标、累计指标。数据仓库中的数据以月为基本粒度从操作数据库抽取数据。因此,系统中的指标数据主要是经过计算后所得的数据。
3.系统结构
税务信息系统主要由一个终端应用系统和操作数据库系统、一个数据仓库系统及基于数据仓库的 0LAP系统组成,处理各种税务征收业务,并提供较强的税收查询、分析功能。它利用TCPI/P协议、X.25公共数据网建立全市税务系统计算机网络,连接市局和各分局。
4.系统的物理结构
系统利用C/S结构实现。数据从各分局计算中心的业务数据库传到同一地点或上级部门的数据仓库里。0LAPSERVER和WEBSERVE:从数据仓库里抽取数据,提供给客户端使用,部门各单位相关人员利用PC机上的分析软件,通过部门局域网访问数据仓库上的数据。
5.系统实现方案
该系统利用 ORACLE数据库系统建立数据仓库,用局域网,并以WindowsNT作为OLAPSERVER的工作平台。采用TCP/IP和X.25进行分局与市财政局联网。利用ODBC和OLEDB进行数据连接,并利用OLAPSERVER所提供的功能,尽可能使数据访间本地化,以提高响应速度。
五、结束语
数据仓库技术为决策分析系统的研制与开发提供了一种有效的、可行的体系化解决方案。本文对数据仓库技术在该系统建立中的应用作了较深入的探讨,提出了建立该系统的理论框架。据统计,美国500强中98%的企饭已经建立了基于数据仓库的应用,而我国在这方面还存在很大的空白。但随着我国综合国力的增强,以及信息技术的飞速发展,越来越多成功的决策支持系统应用将会出现。一个完整的决策分析系统数据仓库解决方案集成了数据仓库、联机分析、数据挖掘等多种信息处理技术,如果这一解决方案得到广泛的采用,必将把决策分析系统的研究与开发工作推向一个更高的层次。
参考文献:
[1]冯海霞:基于数据仓库的HR决策支持系统初探,当代经理人(中旬刊),2006/19
[2]李睿:基于数据仓库的寿险决策支持系统设计与实现,现代电子技术,2006/19
[3]李捷:基于数据仓库和数据挖掘的企业决策支持系统研究,科技经济市场,2006/07
[4]钱开余:数据仓库聚集优化在电力决策支持系统中的应用构想,江苏电机工程,2006/04
[5]何可立:构建南方电网数据仓库与决策支持系统的探讨,广东电力,2006/07
[6]李祎:基于数据仓库的决策支持系统的分析与研究,电脑知识与技术,2006/26
[关键词]数据仓库 数据挖掘 知识库 知识发现 决策支持系统
决策支持系统(DecisionSupportSystem,DSS)的概念于20世纪70年代初由美国MichaelS.scottMorton在《管理决策系统》一文首次提出,20世纪80年代中期引入我国。20多年来,决策分析系统已在理论研究、系统开发和实际应用诸方面取得了令人瞩目的进步,并呈现出积极的多元化的发展态势。
随着社会经济的发展和多样化,决策者为了能够尽快调整策略,需要一个决策系统以辅助解决各方面的问题,也就是说需要一个能够自动进行调整来满足决策者需求的系统。本文提出在数据仓库基础上建立一个决策支持系统。
一、数据仓库技术
数据仓库(DataWarehouse,DW)技术是在传统数据库技术的基础上发展起来的,是现代计算机系统信息处理技术的热点之一,它的出现给决策支持系统的发展注人了新的活力。与传统数据库面向OLTP进行数据组织的特点相比,数据仓库的数据具有面向主题的、集成的、随时间不断变化的、不可更新的四个基本特征。数据仓库的主要功能是把决策所需的信息从原始业务操作数据中分离出来,把分散的、难以利用的原始业务操作数据转化为集中统一、随时可用的信息,同时提高访问和处理数据的速度和效率。
数据仓库系统不是一个简单的由各种数据合并而成的超大型数据库,其建立也不是要取代传统数据库,它应建立在一个较全面和完善的信息应用的基础上,为高层决策分析提供支持。数据仓库是一种专为联机分析应用和决策支持系统提供数据源和决策工具的结构化数据环境,通过运用其中的数据与信息,企业能获取更多经营效益。比如,企业可以从数据仓库中进行利润增长分析,了解产品和服务间的关系、利润、产品线等,有利于指导决策,提高效益。
二、决策支持系统
决策支持系统是在信息管理系统的基础上建立起来的,弥补了管理信息系统的不足,适应了人们对于信息管理向智能化方面的发展。决策支持系统可以为决策者提供及时、准确、科学的决策信息。决策支持系统的体系结构最初包括三个部分:数据库、模型库和用户接口。该系统结构反映了人们对于当时决策支持的要求,但是还有很大的局限性,只强调数据、模型和两者的集成,而且进行的主要是数学运算,对于有些知识和经验却不能很好处理。随着人们需求的提高,要求决策支持系统不再仅仅在模型的基础上利用数据库中的数据进行计算,而要求能够进行一些必要的推理,进一步降低人的参与,提高决策支持系统的智能性。与决策支持系统同步发展的专家系统为决策支持系统的智能化发展提供了有限的支持,决策支持系统吸收了专家系统在知识学习和推理方面的特点,增加了知识库部分,可在某些方面进行推理和知识的学习。
三、基于数据仓库决策支持系统
目前新兴的数据仓库和数据挖掘技术为决策支持系统的智能化发展提供了新的方法,开创了决策支持系统发展的新阶段。作者在开发决策支持系统的实践中提出了一种基于数据仓库的决策支持系统体系结构,能够较好地解决决策支持系统智能化的自适应功能。图1所示为基于数据仓库的决策支持系统体系结构框图。它主要由两部分组成,一个是比较传统的决策支持系统,另一部分是数据仓库和数据挖掘,这两部分只是形式上放在了一起,实际上并不完全独立,而是紧密结合起来的。传统的决策支持系统部分主要负责决策支持,通过对模型库、方法库、知识库和数据仓库的模型、方法、知识、数据处理提供相应的辅助决策支持,这也是决策支持系统的功能所在;而数据仓库和数据挖掘部分则是该系统的智能化的核心,数据挖掘处理单元通过对数据库中数据采用有关的方法,结合相关的知识和规则进行数据挖掘,获取有用的知识、规则和模型。在这里数据仓库和决策支持系统得到了比较完美的结合。
1.系统基本结构
数据仓库技术和数据挖掘技术相结合建立的辅助决策系统是决策支持系统(决策支持系统)的新型式,使决策支持系统的发展跃上了一个新的层次其系统结构如图1所示 其中 数据仓库用于数据的存储和组织 OLAP 侧重于数据的分析。数据挖掘则致力于知识的自动发现 将这三种技术有效地结合起来发挥它们各自的特长和互补作用 就能设计出企业决策支持系统的可行方案。
采用这种模型后,决策支持系统通过上述三种技术后结构变的更加紧凑,而且更重要的是将数据仓库和 OLAP 结合后能将普通的大量信息转换成有价值的辅助决策信息,OLAP 是一种对多维数据库分析和处理更加有效的数据分析技术,它具有强大的分析功能,可以提供给用户强大的统计、分析和报表处理功能及进行趋势预测的能力,从宏观到微观对数据进行深入分析 行不同维间的比较等等。
数据挖掘工具运行于高性能的并行处理系统上,可以使分析数据更加准确和深入,在深度上进行延伸,深入的分析能够发现一些潜在的信息在广度上进行扩展,扩大的样本降低了错误发生率利用数据挖掘技术可以自动地找出数据仓库中的模式及关系,数据挖掘就是知识的提取 知识的提取过程即为决策支持过程。
2.系统设计关键技术
(1)数据仓库设计
政府数据仓库结构的设计要从决策目标出发合理安排各元素,保证数据仓库的规范化和完整体系。数据仓库设计的各个数据定义均保存在元数据库中。数据仓库的数据结构一般采用星型模型和数据模型。首先是要定义各主题及其所需数据源;数据源分内部、外部数据源,其涉及属性有计算机平台、数据拥有者、数据结构、使用该数据源的处理过程、仓库更新计划等。其次是要定义数据抽取、提炼和装载原则。最后是细化主题,形成主题表,根据主题表定义数据集市。
(2)数据预处理
数据预处理的主要任务是对来自不同平台的数据进行分析、处理,找出不一致的数据,进行清洗、转换、再加工等,再装载到数据仓库。具体步骤分为两步:首先是对DB1, DB2,……,DBn的数据进行提取、清洗、标准化、集成等,将不一致的数据转化成一致的数据;在这一过程中,可以建立一个名字映射表。其次,在组织不同来源的数据过程中,先将数据转换成一种中间模式,再把它移至临时工作区。最后是将不一致的数据转化成标准的、一致化的数据后,将其存人数据仓库的数据区。
(3)数据管理
数据仓库规模一般都很大,从建立之初就要保证它的可管理性,一个政府机构可能建立几个数据仓库或数据集市,但他们可共用一个元数据库对其进行管理。首先从元数据库查询所需元数据,然后进行数据仓库更新作业,更新结束后,将更新情况记录于元数据库中。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。元数据是数据仓库的重要组成部分,元数据的质量决定整个数据仓库的质量。
四、决策支持系统在税务上的应用
税务部门是一个数据密集型部门,数据管理任务繁重,需要高效的数据管理工具。一方面,税务部门几乎每天都要产生大量的原始数据,需要及时对这些数据进行处理和保存,并且,从税务登记到税务申报再到 税务核定等一系列过程中,对数据需要反复使用;另一方面,税务各部门领导需要分析税务,了解税收情况,以便作出有效工作安排。因此,数据的有效管理是一个非常重要的任务,有必要建立以数据仓库和OLAP系统技术为基础的决策支持系统。
税务系统整体规划的功能及系统体系结构可以概括为以下几方面:
1.系统可实现的功能
(1)建立面向整个税务系统的数据仓库,包括从操作数据库存到数据仓库的抽取转换模块、面向主题的数据仓库、特定需要的数据商场、元数据库、元数据浏览程序等;
(2)建立基于数据仓库的应用系统,包括报表查询系统、通用查询系统、区域经济分析系统、网上在线分析系统、基于地理信息系统的税务分析系统等OLAP工具。
2.数据分析
该系统可完成税务征收数据的采集和加工,构成可供本单位及其它政府部门共享的时间系列数据库。数据主要来自终端征收系统。指标主要包括税收额、税基和纳税户,税收额按性质又分为应交税金、实交税金、退税额、补税额和未交税额,每个指标又可按要求分时段指标,如年指标、月指标、累计指标。数据仓库中的数据以月为基本粒度从操作数据库抽取数据。因此,系统中的指标数据主要是经过计算后所得的数据。
3.系统结构
税务信息系统主要由一个终端应用系统和操作数据库系统、一个数据仓库系统及基于数据仓库的 0LAP系统组成,处理各种税务征收业务,并提供较强的税收查询、分析功能。它利用TCPI/P协议、X.25公共数据网建立全市税务系统计算机网络,连接市局和各分局。
4.系统的物理结构
系统利用C/S结构实现。数据从各分局计算中心的业务数据库传到同一地点或上级部门的数据仓库里。0LAPSERVER和WEBSERVE:从数据仓库里抽取数据,提供给客户端使用,部门各单位相关人员利用PC机上的分析软件,通过部门局域网访问数据仓库上的数据。
5.系统实现方案
该系统利用 ORACLE数据库系统建立数据仓库,用局域网,并以WindowsNT作为OLAPSERVER的工作平台。采用TCP/IP和X.25进行分局与市财政局联网。利用ODBC和OLEDB进行数据连接,并利用OLAPSERVER所提供的功能,尽可能使数据访间本地化,以提高响应速度。
五、结束语
数据仓库技术为决策分析系统的研制与开发提供了一种有效的、可行的体系化解决方案。本文对数据仓库技术在该系统建立中的应用作了较深入的探讨,提出了建立该系统的理论框架。据统计,美国500强中98%的企饭已经建立了基于数据仓库的应用,而我国在这方面还存在很大的空白。但随着我国综合国力的增强,以及信息技术的飞速发展,越来越多成功的决策支持系统应用将会出现。一个完整的决策分析系统数据仓库解决方案集成了数据仓库、联机分析、数据挖掘等多种信息处理技术,如果这一解决方案得到广泛的采用,必将把决策分析系统的研究与开发工作推向一个更高的层次。
参考文献:
[1]冯海霞:基于数据仓库的HR决策支持系统初探,当代经理人(中旬刊),2006/19
[2]李睿:基于数据仓库的寿险决策支持系统设计与实现,现代电子技术,2006/19
[3]李捷:基于数据仓库和数据挖掘的企业决策支持系统研究,科技经济市场,2006/07
[4]钱开余:数据仓库聚集优化在电力决策支持系统中的应用构想,江苏电机工程,2006/04
[5]何可立:构建南方电网数据仓库与决策支持系统的探讨,广东电力,2006/07
[6]李祎:基于数据仓库的决策支持系统的分析与研究,电脑知识与技术,2006/26