论文部分内容阅读
数据仓库作为支持决策的数据基础和重要手段,近几年来得到了迅速地发展,并已成功地应用到制造业、零售业、金融服务、电信、运输等多个行业,显示出了其勃勃生机和强大的生命力。数据仓库的数掘质量是数据仓库中的一个重要概念,它也是高质量决策最为依赖的环节。因此数据质量是关系到数据仓库能否成功建立和良好运行的关键所在。 本文首先对以往有关数据质量的理论进行回顾,继而在已有的数据质量度量体系之上,提出了用质量维度对质量度量标准进行划分,建立了分层次的数据质量评价体系用以满足不同的用户对数据质量的需求。 其次,考虑到数据仓库的时间特性,加入了数据演化的理论,提出了质量因子的概念,对质量评价体系进行了优化。通过用于质量测量的测量代理和用于数掘优化的评价机制,初始数据源的数据逐渐转换为接近甚至达到用户质量目标的数据。 再次,本文对以往文献中的基于可扩展元数据库的数据仓库结构进行了改进,在此结构中融合了数据质量的要素,提出对其数据质量的改进方法,从而达到对决策的有效支持。本文重点描述了这个结构和基于它的数据质量评价体系。对于数据质量有效支持的机制—簇,按照数据质量的需要和元数据的相关描述,形成多级簇的阶层图。 最后,本文把提出的数据质量的方法,应用到了信息产业的企业信息管理当中,实现了对其数据的质量评价,建立了“质量驱动”的数据仓库系统,有效的提高了数据查询和使用效率。