论文部分内容阅读
数据仓库的数据质量是数据仓库的一个重要概念。在以往的文献研究文献中提供了一种GQM模型,即Goal-Question-Metric模型,它采用质量问题询问的方法来改进数据仓库的数据质量。而它不能适应,日益增多的数据源及越发复杂的异构数据。 本文先对以往的数据仓库体系和有关数据质量的理论进行回顾,继而提出一种的数据仓库三层体系结构。在此结构中融合数据质量的要素,提出对其数据质量进行改进的方法,满足于对数据仓库各层不同的质量要求,从而达到对DSS的有效支持。本文重点描述了这个结构及其对数据质量有效支持的机制——簇和转换代理。在多个异构数据源基础上按照数据质量的需要,和元数据的相关描述,形成多级簇的阶层图。在簇的形成过程中加入了转换代理机制,这种机制克服了GQM方法的缺陷。在代理机制中,加入了知识检索工具,它不但用于划分形成簇,而且有效的把异质数据归类。同时加入了用于质量测量的测量代理,用于数据优化的优化器和评价机制。经过这些若干步骤转化,初始数据源的数据转化为接近甚至达到用户质量目标的数据。最后,因为数据仓库有时间特性,本文还加入了数据演化的有关理论和方法。