数据质量分析系统中元数据管理的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:lglglglglg18
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库作为支持决策制定过程的重要手段,近几年来得到了迅速发展,并已经成功应用到制造业、零售业、金融服务、电信、运输等多个行业。随着数据仓库的深入应用,数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题。由于数据仓库主要由各种数据组成,这些数据的质量直接影响着数据仓库的质量,而数据仓库质量严重影响着数据仓库使用者的信心,因此,由数据质量引起的问题越来越受到政府机构、企业、个人的关注。目前,国外已经把数据质量技术作为一个独立领域来研究,并且成立了一些相关机构和组织,定期开展活动和会议来发展数据质量技术。 基于数据仓库的数据质量分析系统就是为了研究和改善数据质量问题而开发的,元数据管理在其中起着重要作用。元数据是关于数据的数据,通过它可以准确和完整地表述数据与业务之间的关系,使用户了解数据仓库中数据的来龙去脉,这为了解数据的质量状况和数据之间的关系、有效分析数据仓库中数据质量奠定了基础。而在现实的许多数据仓库项目中,元数据管理没有得到应有的重视,很多企业甚至都没有建立相应的数据管理体制。这种情况导致在数据仓库建设中,元数据分散在系统中的各个组成部分,缺乏统一和集中管理的基础,无法形成独立的层次。 针对以上问题,本文对数据质量分析系统中的元数据管理进行了研究,主要研究内容与创新点如下: 1.引入了CWM模型并进行了扩展。根据项目特点,在研究了几种通用的元数据管理策略后,选取了公共仓库元模型(Common Warehouse Metamodel,CWM),并根据系统的需求,通过定义一系列的新类和类之间的关联,采用面向对象技术中的继承机制对CWM模型进行了扩展。 2.对各种元数据进行集中管理,并建立了统一的元数据存储库。对系统中的ETL(Extract,Transform,Load)过程、数据质量分析过程、数据资源等元数据进行了集中统一管理,并基于CWM标准,运用“对象关系映射”技术,将类、对象以及属性映射存储到数据库中,建立了统一的元数据存储库,方便了元数据的管理。 3.采用了灵活的实现技术,方便系统扩展。在系统实现中,采用Web Service和XML等技术实现不同平台之间元数据的共享与交换,不但简化了系统的维护,而且方便以后对系统进行扩展。
其他文献
随着计算机技术和普适计算技术的发展,情感的表达与感知作为人与人交互的辅助手段愈发突显其重要性。近年来,人们不再局限于计算机单纯的使用功能,更加希望挖掘计算机的更多
已有模型资源的有效重用是计算机图形领域面临的重要课题之一。本文以常见的室内景物作为研究对象,利用体感设备针对景物采集所得的RGBD数据的分割结果在三维模型库中检索相
随着计算机技术的飞速发展和广泛应用,海量信息的开放与共享日益增强,信息安全性日益成为突出问题。数据库系统作为信息存储的主要场所,保证和加强其安全性是迫切需要解决的研究
随着社会的进步和发展,人们不断涉及到很多复杂的实际应用问题。他们对计算机的计算速度和智能性提出了挑战。演化算法是用计算机模拟大自然的演化过程,特别是生物进化过程,来求
串匹配是计算机研究领域的一个经典问题,是许多网络安全系统的关键技术之一.随着信息量的急遽膨胀,应用系统要求更准确、更快速的对海量信息进行分析过滤,采用简单关键词来描
静校正在地震资料处理中十分重要。经野外一次静校正后,残余的静校正量可用剩余静校正方法求出。剩余静校正问题实质上是一个非线性优化问题。遗传算法是一种重要的非线性全
本文所研发的“基于GIS的多目标地球化学信息管理与综合评价系统”以国土资源部与上海合作开展的“多参数立体城市地质调查项目”为背景。 上海社会经济近十余年来发展速
随着WWW的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,我们构建了大规模中文网
手绘草图既符合人们“笔录纸现”的思维表达习惯,又能充分利用计算机极强的信息维护功能,因此在人机交互领域具有强大的生命力。小型化、便携式和无线设备的快速发展极大地推动
随着互联网的发展,信息检索技术广泛地用于搜索任务。相比于传统的Unigram概率模型,Bigram相关性建模是提高检索精度的重要技术手段,但由于相关计算复杂性过高,难以应用于大规模