论文部分内容阅读
数据仓库作为支持决策制定过程的重要手段,近几年来得到了迅速发展,并已经成功应用到制造业、零售业、金融服务、电信、运输等多个行业。随着数据仓库的深入应用,数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题。由于数据仓库主要由各种数据组成,这些数据的质量直接影响着数据仓库的质量,而数据仓库质量严重影响着数据仓库使用者的信心,因此,由数据质量引起的问题越来越受到政府机构、企业、个人的关注。目前,国外已经把数据质量技术作为一个独立领域来研究,并且成立了一些相关机构和组织,定期开展活动和会议来发展数据质量技术。
基于数据仓库的数据质量分析系统就是为了研究和改善数据质量问题而开发的,元数据管理在其中起着重要作用。元数据是关于数据的数据,通过它可以准确和完整地表述数据与业务之间的关系,使用户了解数据仓库中数据的来龙去脉,这为了解数据的质量状况和数据之间的关系、有效分析数据仓库中数据质量奠定了基础。而在现实的许多数据仓库项目中,元数据管理没有得到应有的重视,很多企业甚至都没有建立相应的数据管理体制。这种情况导致在数据仓库建设中,元数据分散在系统中的各个组成部分,缺乏统一和集中管理的基础,无法形成独立的层次。
针对以上问题,本文对数据质量分析系统中的元数据管理进行了研究,主要研究内容与创新点如下:
1.引入了CWM模型并进行了扩展。根据项目特点,在研究了几种通用的元数据管理策略后,选取了公共仓库元模型(Common Warehouse Metamodel,CWM),并根据系统的需求,通过定义一系列的新类和类之间的关联,采用面向对象技术中的继承机制对CWM模型进行了扩展。
2.对各种元数据进行集中管理,并建立了统一的元数据存储库。对系统中的ETL(Extract,Transform,Load)过程、数据质量分析过程、数据资源等元数据进行了集中统一管理,并基于CWM标准,运用“对象关系映射”技术,将类、对象以及属性映射存储到数据库中,建立了统一的元数据存储库,方便了元数据的管理。
3.采用了灵活的实现技术,方便系统扩展。在系统实现中,采用Web Service和XML等技术实现不同平台之间元数据的共享与交换,不但简化了系统的维护,而且方便以后对系统进行扩展。