论文部分内容阅读
在数据库集成领域内,建立异构数据源之间的语义互操作越来越成为一个核心问题,而语义互操作问题最后归结为解决数据冲突的问题,这是数据集成最主要的任务。数据冲突包括模式层次和语义层次上的冲突,相比较而言,后者更难解决。在异构和分布式数据库系统中,各局部数据库均是独立运行、独立管理的,具有自治性,因而造成局部数据库的数据彼此之间的语义和数据值有可能不一致,造成各局部数据库中的数据源冲突,从而使得对象的描述产生二义性,数据冲突直接导致产生错误的查询结果。语义互操作问题一般有两种解决方法:全局模式和域本体方法。全局模式法通过构建一个全局模式来建立全局模式和局部数据源模式之间的映射关系。这种方法的缺点是严重依赖于相关的应用系统或者是参与的局部数据源模式。因为当一个新的模式或者应用系统加入到集成环境中,或者出现了一种潜在的冲突,需要对全局模式进行大幅度的修改。域本体的方法利用机器可理解的概念的定义以及概念之间的关系,这些概念和概念之间的关系是用一个共享本体来表示的,各个数据源都可以理解该本体的含义。这种方法中的知识是特定的域当中,但是独立于特定的应用系统和模式。在这种方法中还需要辅助的工具来捕获和表示各种知识,这些知识可以用来解决语义冲突。本文在总结前人经验和工作的基础上,系统的研究了数据集成中的模式层次和语义层次上的数据冲突检测和解决问题,在现有的软件环境基础之上提出了一个更为优化和完善的语义冲突解决方法,不仅能够很好的解决现存的方法不能解决的语义冲突,消除现存方法关于数据冲突转换方向的限制,同时还能有更加丰富的语义来表达和解决更多种类的语义冲突。对于模式层次上的数据冲突,定义了一个不同于传统本体框架中的本体,该本体将有关语义冲突的知识进行编码,能提供一个自动比较和操作数据源上下文知识的方法。对于语义层次上的数据冲突,根据语义冲突分类框架建立语义冲突表示模型,然后基于该模型提出检测和解决冲突的算法。目前该系统已经实现并且经过了反复的实验验证和评估,结果表明这种方案可以有效的解决绝大部分的语义冲突,并且能够保持集成模式和域的独立性,同时有比较高的效率。本文的主要贡献:(1)系统研究了目前流行的语义冲突检测和解决的各种方法,通过详细的分析和对比发现了已有工作的缺点和不完善的地方;(2)在原有模型和方法基础之上,根据实际集成需求的多样性,完善和优化了已有的基于本体的数据冲突的发现和解决过程,使得整个过程更加自动化;并且改进了冲突概念之间转换的算法,打破了原来方法只能单向进行数据转换的限制;(3)根据本体语言的扩展和完善相应的扩展了语义,使得本文的方法有更强的语义表达能力,从而能够检测和解决更多的语义冲突;(4)根据处理问题的方便,将模式层次上的数据冲突和语义层次匕的数据冲突分别用两种本体来处理,以便能够检测和解决更多的语义冲突。