基于CWM的商场数据仓库ETL系统架构研究

来源 :商场现代化 | 被引量 : 0次 | 上传用户:hlxcun871
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 在完成商场数据仓库数据模型的设计与构建后,数据的抽取、转换、加载成为建立数据仓库最重要的工作。针对商场数据仓库对ETL技术的要求,在研究CWM工作机制的基础上,提出了基于CWM的商场数据仓库ETL系统架构的设计。通过分析CWM对ETL提供的技术支持,论证了系统架构的可行性和科学性。
  [关键词] 商场数据仓库 ETL 元数据 CWM ETL系统架构
  
  商场数据仓库数据模型建立后,一个最重要的问题,是如何把已有的、各种异构的操作型的海量数据,从各种操作型数据库系统中抽取出来,排除数据中的数据缺陷,完成一系列转换,最后将数据加载到数据仓库中,成为面向主题的、集成的、历史的、不易娈的、综合的数据。为管理者提供决策支持的有用信息。国内外有影响力的大型商场企业纷纷率先建立自己的数据仓库或数据集市。以满足决策的需要。
  一、ETL 概述
  ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的简写,它是指:将各种异构数据源中的数据抽取出来,并将不同数据源的数据进行转换和整合,得出一致性的数据,然后加载到数据仓库中。ETL工具,是数据仓库系统的重要组成部分;是影响数据仓库系统成败的关键。
  获取ETL工具有两个途径:利用现有商品化ETL工具,虽然能缩短系统的开发周期,但存在投资成本大,软件的针对性、通用性、兼容性差的问题。自行设计开发一个标准通用的ETL工具,提高ETL的实用价值,降低项目实施的成本和风险,具有重要的意义。
  由于数据仓库和数据源系统在数据格式、数据模型等方面存在很大差异,客观上形成数据仓库ETL实现过程很大的难度。在ETL的工作过程中,每步都和数据仓库元数据密切相关。
  按照传统的定义,元数据(Metadata)是关于数据的数据。元数据支撑了数据仓库开发应用的全过程,成为数据从数据源到数据仓库的桥梁。
  数据抽取阶段,没有相应的映射规则,就无法知道需要抽取什么样的数据;在将源数据存储格式转换为目标数据存储格式时,需要知道源存储格式和目标存储格式的信息,以及相应的存储格式之间的转换规则;在数据加载阶段,需要知道目标数据仓库的数据结构和相关信息。所有这些信息,都需要元数据提供。
  由此可见,ETL过程自始至终都需要元数据的支持和控制。正因为如此,要解决ETL开发中的问题,应当从相关的元数据着手。
  二、关于CWM 及其提供的工作机制
  CWM(Common Warehouse Metamodel 公共仓库元模型)是 国际对象管理集团OMG推出的数据仓库元数据管理规范。CWM的主要目的是在分布异构环境下,使数据仓库工具、工作平台和元数据存储库之间易于进行数据仓库元数据的交换。
  CWM基于以下三个工业标准制定:
  1.UML(Unified Modeling Language统一建模语言)
  作为目前最为风行的建模语言,UML用于描述一般数据仓库架构的元模型。
  2.MOF (Meta Object Facility 元对象工具)
  MOF是OMG元模型和元数据的存储标准,用以定义存储库的结构、对外接口和交换格式的映射规则。
  3.XMI (XML Metadata Interchange,XML元数据交换)
  XMI是基于XML的元数据交换。定义如何用XML表示基于MOF的元数据,使元数据以XML文件流的方式进行交换。
  基于上列三个标准,CWM为数据仓库工具之间共享元数据,制定了一整套关于模式、语法和语义的规范。主要包括:
  (1)CWM元模型(Metamodel):描述数据仓库系统共享的元模型。它由一系列子元模型构成。
  (2)CWM XML:CWM元模型的XML表示。
  (3)CWM DTD:DW/BI共享元数据的交换格式。
  (4)CWM IDL:DW/BI共享元数据的应用程序访问接口。
  基于CWM的数据仓库元数据转换和管理模型可用图1表示。从图1不难理解,元数据库也是基于CWM标准,通过CWM元模型映射构建。CWM 以UML 的元模型为基础,针对数据仓库领域的应用,使用特定的元类、元关系,将来自各异构数据源和数据仓库各个组件中的元数据,通过CWM XML、CWM DTD、CWM IDL 三个规范,转化为XML 文档。为数据仓库元数据管理提供了满足元数据交换所需的语法和语义规范的、方便元数据交换和元数据存储的XML文件。
  三、基于CWM的数据仓库ETL系统架构
  1.基于CWM的ETL系统架构
  在研究ETL和CWM的基础上,设计出基于CWM的数据仓库ETL过程的系统架构,如图2所示。
  2.系统架构的结构分析
  (1)ETL子系统结构
  ETL子系统结构由五个模块组成。即:系统调度模块、元数据管理模块、数据抽取模块、数据转换模块和数据装载模块。其中,数据抽取模块负责将超市业务系统的原始数据进行抽取并保存到临时数据库中;数据转换模块负责对抽取出来的数据进行清洗、转换和计算汇总;数据装载模块负责将经过清洗、转换的、符合目标数据模型的数据装载到目标数据库中。以上三个模块的活动被系统调度模块统一调度,结合元数据管理模块对整个ETL过程进行统一控制,用以实现ETL各步骤的定时触发、正常执行和异常控制等过程。
  (2)CWM对系统元数据的规范
  整个架构以CWM元模型库为基础,通过CWM工作机制,把各个层次的元数据规范化后,存储在元数据库中,再由元数据管理模块支撑并控制整个架构的运行。
  (3)建立集中式元数据库
  为了便于对数据仓库的元数据进行有效管理,按照通用的元数据管理标准建立一个集中式的元数据库。在所建元数据库中,通过建立“信息模型”的方法对元数据进行分类,并建立分类存储的、通用的信息目录。把技术元数据和商业元数据存储在不同的信息目录中。便于适应不同的服务目标、不同的元数据结构的存储和管理。元数据信息目录面向数据仓库的应用程序。应用程序可以通过访问该目录,使用、存储、管理元数据;用户也可以通过该目录,对元数据进行浏览、查询和使用。整个架构,都集中在元数据的统一控制之下。
  四、CWM对ETL提供的技术支持分析
  1.CWM元模型结构
  由于系统架构建立在CWM元模型基础之上,CWM通过对元数据的统一规范和管理,实现了对整个架构的支持。
  为了便于分析CWM对ETL子系统中各个模块的支持,图3给出了CWM元模型结构示意图。在CWM的总体结构中,可分为5个层次,由若干互不相同但又紧密相关的子元模型包构成。图中灰色部分是CWM对ETL子系统有着直接联系和支撑CWM元模型包。
  2.对数据抽取模块的支持
  在CWM的资源层中,五个元模型分别对五种不同的数据源进行了建模。五种数据源格式分别是:面向对象的数据格式、关系型数据格式、记录型数据格式、多维数据格式和XML数据格式。这五个元模型所描述的数据格式相当齐全,利用它们,可以把商场常用的、历史遗留的数据源都描述出来。从而得到各种不同格式的数据源的元数据,为ETL对数据源的抽取过程提供了支持。
  3.对数据转换模块的支持
  ETL的核心还是在于“T”这个过程,也就是转换过程。而抽取和装载一般可以作为转换的输入和输出,因此,我们重点研究了CWM对数据转换过程的支持。
  在CWM分析层中,转换包对ETL过程进行了详细的描述。转换包的主要作用是:将一次转换活动的数据源和目标准数据关联起来,同时支持“黑盒”和“白盒”转换,可将一组转换组成一个逻辑单元。一次转换可以将一组源对象转换成一组目标对象。数据对象集合可以是任何模型元素,但通常是表、字段或者内存对象。
  CWM管理层中的数据仓库操作包,记录了数据仓库的三个重要事件。其中的转换执行事件定义了记录转换活动结果的类。在转换完成之后,转换活动的结果可被活动执行类和步骤执行类记录。这个记录行为是对发生在数据仓库操作包中的一个内部事件、或者其他类似方式的回应,为每个转换执行记录开始、结束时间,各种进展和结果的指标。便于需要时查询。
  4.对数据调度模块的支持
  系统调度模块负责对ETL过程进行统一调度和异常控制,保证ETL正常运行。在CWM的管理层中,数据仓库处理包描述了数据仓库处理(实际上就是转换过程)的调度方面的信息。在数据仓库处理包中,定义了能够触发转换活动执行的一系列事件。这些事件控制了数据转换过程的调度。
  5.对数据装载模块的支持
  数据装载模块负责将经过清洗、转换的、符合目标数据模型的数据装载到目标数据库中。在CWM的支持下,完成了对源数据的抽取和转换,在系统元数据的控制下,把正确的数据加载到数据仓库中,就是一件极其简单的事了。
  总之,CWM为ETL 提供的技术支持,为ETL各个功能模块的实现奠定了基础。为系统架构的实施提供了条件。同时,也保证了ETL子系统的通用性和可扩展性。
  五、结束语
  本文研究了基于CWM的数据仓库ETL 系统架构,下一步的工作,将主要研究系统的实现。本系统架构的编码实现拟采用Java语言。之所以选择Java语言,不仅因为它是一种简单的、面向对象的、分布式的语言,并且具有平台无关性和安全性等优点,更重要的是因为它可以很好地支持CWM标准,为我们从建模到编程实现的过程提供很大方便。
  参考文献:
  InmonWH著 王志海 林友芳等译:数据仓库.第三版,北京机械工业出版社,2003年
  
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
其他文献
[摘要] 同样的教育居于世界前列的国家,我国和芬兰的教育体制存在之极大的差异。笔者结合留学芬兰期间切身感受,深入研究了所在国“自主性”教育体制的特点,并一一对照我国的教育特点,希望能对我国刚性教育体制提供经验借鉴。  [关键词] 教育体制 自主性教育 刚性教育    根据国际经济合作与发展组织(OECD)最新教育质量调查结果显示,芬兰拥有全球最好的教育。芬兰学生的数学和阅读名列第一,在科学方面则与
期刊
[摘要] 随着我国海洋旅游业向纵深发展,旅游者对海洋旅游产品也产生出更多新的要求,以市场为导向,调整、优化海洋旅游产品结构势在必行。论文以浙江海洋旅游的核心地区舟山群岛为例,分析了在当前形势下海洋旅游产品开发中存在的问题,并就海洋旅游产品结构优化对策做了初步性探讨。  [关键词] 海洋旅游 产品结构优化 舟山群岛    海洋这片蓝色的国土在世界范围内已迅速发展成为旅游业新兴开辟的空间。20世纪90
期刊
[摘 要] 随着网络技术的高速发展,越来越多的网络应用系统在商业企业局域网中得到了普及应用。然而如何集中的管理商业企业局域网中各应用系统的用户,成了每个商业企业局域网管理者必须面对的问题。本文阐述了一种利用LDAP和RADIUS服务结合的商业企业局域网统一认证系统,并对其详细设计方案及实现过程进行了说明。  [关键词] 统一认证 LDAP RADIUS    随着大型商业企业信息化的全面启动,很多
期刊
[摘要] 本文着重论述了市场与艺术、文化之间的关系,现代艺术在内容上、形式上都发轫于资本主义的市场经济体系,体现了文艺复兴以来业已形成的自由与民主的精神。但是随着市场化的深入,现代艺术的先锋性开始钝化,过度的收藏与投资,最终导致市场在思想文化领域的垄断。因此,保持市场的鲜活,加强国家的调控,提高个人的审美是当前文化发展中急需解决的问题。  [关键词] 艺术 市场 收藏 文化    艺术与市场的磨合
期刊
连锁超市的采购计划(OTB, Open-to-Buy)是在给定时期(国外通常是一个月)内计划采购额与采购员承诺购买款项之间的差额,它代表采购员留待当月购买的数量,并且随每次购买的数量的上升而下降。通过OTB,采购人员可以轻易得到最重要的管理信息,适时掌握所有商品的正确库存数量,避免因为库存过大,周转率太低而造成损失。  一、制定自己的0TB计划  1.设定控制单位。在日常的连锁超市管理中管理控制单
期刊
[摘要] 股票回购是国外资本市场中一种常见的资本运作方式,是指上市公司利用自有资金或债务融资收购本公司发行在外的股票,将其作为库藏股或进行注销的行为。本文深入探讨了上市公司股票回购动因和其效应,并且以邯郸钢铁股票回购案为例来验证本文的观点。  [关键词] 股票回购 动因 效应    股票回购(share repurchases)是上市公司从股票市场上购回本公司一定数额的发行在外的股票。在西方,股票
期刊
[摘要] 五月十二号我国四川汶川地区发生里氏8.0级大地震,到目前已经造成六万多同胞死难,无数家庭支离破碎。面对空前的灾难,我们悲痛不已。然而,面对灾难,人们日渐意识到政府管理在抗震救灾乃至灾后重建中的重要作用。本文立足于本次抗震救灾过程中政府危机管理的一些成功之处,对于灾后政府促进当地经济重建工作提出了一些建议和看法。  [关键词] 危机管理 政府能力 经济重建    一、灾后成功的危机管理  
期刊
[摘 要] 根据经济增长的主要标志——国内生产总值的部门构成,分析各产业部门中工业、建筑业、第三产业、批发零售业与国内生产总值之间的相互关系,探求各部门对经济发展的作用力,发现中国工业部门仍然是国内生产总值的重要影响因素。因此,应该一方面依靠技术进步优化产业结构,另一方面深化收入分配制度改革,完善社会保障制度,才能使经济持续稳定增长。  [关键词] 国内生产总值 部门 经济增长    一、问题的提
期刊
[摘 要] 随着竞争力的不断加强,B2B企业面临的生存环境也日益严峻,因此,B2B企业与其客户保持良好的长期关系显得日益重要,这就需要提高与客户的关系质量,要提高关系质量,就不免要研究关系质量的维度。本文首先研究了和总结了关系质量以及B2B关系质量的含义,以此为前提,在总结了一般关系质量维度的基础上,进一步总结和阐述了B2B关系质量维度,并对未来的研究方向进行了展望。  [关键词] B2B营销 关
期刊
[摘 要] 介绍了酒店网络系统防止ARP欺骗必要性。通过分析ARP协议的工作原理,探讨了ARP欺骗的危害性。最后,从酒店网络系统安全的维护工作出发,介绍了IP地址和MAC地址绑定、交换机端口和MAC地址绑定、静态配置路由ARP条目等技术能够有效防御ARP欺骗攻击的安全防范策略。  [关键词] 网络系统 ARP欺骗    近几年来,国内经济的高速发展,带来了蓬勃发展的旅游业和频繁的商务旅行活动。这些
期刊