论文部分内容阅读
数据仓库系统的成功操作和使用密切地依赖于多种元数据的有效管理。元数据的质量管理是元数据管理的一个重要方面。高质量的数据只有在高质量的元数据的描述下才能充分发挥作用。在元数据的质量管理中,元数据的一致性管理又是其中的重要方面。元数据内容的不一致能够严重影响数据仓库系统处理数据的正确性和精确性,从而对数据仓库系统的稳定性和可靠性造成极大影响。目前国际上对于元数据一致性问题的相关研究还处于起步阶段,还没有研究团体针对通用元数据管理标准,对元数据的一致性问题进行系统的研究。本论文的研究内容就是系统地研究基于普遍接受的通用元数据交换标准——CWM标准——的数据仓库系统元数据的一致性问题。本论文的研究成果可用于开发数据仓库系统元数据一致性的增强系统。该系统支持元数据冲突的自动发现和半自动消解,从而为数据仓库系统各组件的开发和集成提供支持,进而提高数据仓库系统的稳定性和可靠性。冲突管理是包括不同活动的复杂过程,该过程在软件工程领域被深入研究。在CWM元数据的环境中,由于几个原因冲突管理是非常复杂的,其中最明显的原因是CWM元数据和元模型缺乏形式化的语义。我们认为,CWM元数据的冲突管理必须依赖于一个能够精确定义、发现和消解冲突的强有力的形式化机制。我们提出了一组关键准则,每个准则中的需求可以用于评价支持CWM元数据冲突的发现和消解的形式化机制。描述逻辑作为一阶谓词逻辑的子集,定义了一系列逻辑语言,并提供了基于子概念-超概念关系的分类任务。描述逻辑非常适合于关于层次和知识库可满足性的推理。目前已有几种描述逻辑系统被开发出来。我们发现描述逻辑和描述逻辑系统很适合于CWM元数据冲突的发现和消解。我们通过三步来验证描述逻辑是否满足关键准则中的需求。首先研究描述逻辑是否能够描述CWM元数据的抽象语法和语义。其次研究如何利用该形式化机制发现冲突。最后研究是否可能使用描述逻辑消解冲突。本论文的创新性研究成果主要有:(1)提出了一系列评价准则用于评价一个可以用作CWM元数据冲突管理工具的理论基础的静态冲突发现和消解机制,并讨论了所选择的形式化机制满足评价准则中的需求的程度;(2)选择了描述逻辑作为基于CWM交换标准的数据仓库系统元数据的形式化机制,并提出了描述CWM元模型和元数据的描述逻辑;(3)将元数据的一致性区分为水平一致性和演化一致性,并提出了形式化两种一致性情形下的数据仓库系统元数据和元模型的方法;(4)提出了利用描述逻辑的查询推理能力检测元数据中的冲突的方法;(5)提出了一种基于描述逻辑冲突消解规则的元数据冲突消解方法。