论文部分内容阅读
随着数据资产的快速增长,“信息过载”问题逐渐受到人们的重视,如何从海量数据资产中访问语义正确的数据支持决策成为一大技术瓶颈。由于分布、自治的关系数据库是当前最主要的数据来源,因而充分发掘关系数据库的语义信息并提升关系数据库访问的语义正确性,成为当前人们关注的重点。为解决上述问题,本文提出了一种面向语义正确性的集成数据访问方法,对本体表达能力与推理复杂度的折衷、语义映射的半自动化构造、语义查询处理与实例检验、动态环境下集成数据访问系统的适应性维护等问题进行了深入研究,提供了一种将信息优势转化为决策优势的新思路。论文的主要研究成果包括如下几个方面:(1)考虑到实际应用对于本体的表达能力和推理复杂度的需求存在矛盾,本文提出并论证了分层TBox模型和动态ABox模型,使本体在具有较高表达能力的前提下具有更好的计算性能。随后,本文在DL-Lite系列描述逻辑子集的基础上扩展了一种新的DL-LiteNOWL描述逻辑子集,该子集能够充分描述ER模式的语义,同时又具有较好的计算复杂度特性。在上述研究基础上,本文提出了一种面向语义正确性的集成数据访问方法,给出了相应的系统架构和实现流程。(2)在建立关系数据库和本体之间的语义映射时,为了能够在提高映射构造自动化程度的同时降低查询应答的复杂度,本文采用了一种LAV+O-GAV的映射方式。其中,在LAV映射构造过程中,根据DL-LiteNOWL本体的特点提出了一种基于概念连接图的LAV映射发现方法,以半自动方式发现隐含于关系模式中的语义;而O-GAV映射的构造过程基于分层TBox和LAV映射实现,它的作用是建立本体内涵知识片段与数据库存储的外延事实之间的语义关联。采用LAV+O-GAV映射方式,能够在保持系统可扩展性的前提下降低查询处理复杂度,同时也有助于提升语义映射的构造效率。(3)基于分层TBox模型、动态ABox模型以及正确的语义映射,提出了一种面向虚拟对象的查询处理方法。该方法分为三个阶段:首先根据DL-LiteNOWL的特点和重写规则,采用SuperRef重写算法对用户查询进行扩展重写,将用户查询扩展重写为新的查询集合;其次,基于O-GAV映射和扩展重写查询集求取与第一级分层TBox(T Q)相对应的动态ABox(AQ);最后,基于伪模型方法进行实例检验,求取满足后续TBox分层中公理约束的虚拟对象集。面向虚拟对象的查询处理方法具有较为稳定的性能,能够在保证数据语义正确的前提下满足正常数据访问对效率的需求。(4)为了能够使集成数据访问方法适用于动态环境,本文还给出了一种基于面向分层TBox的本体演化方法——LTOOE方法,该方法能够在本体演化中保持TBox的分层不变,并且对分层TBox的第一级分层影响最小。由于本体变化传播之后可能造成映射失效,本文还探讨了LAV映射的合法性检测方法和有效性检测方法,并且借助LAV映射可视化手段给出了一种增量式映射维护方法。本文的研究成果对于数据集成与访问、智能决策支持和语义Web等领域具有积极意义,能够确保为用户或智能应用提供语义正确的数据。同时,也为关系数据库数据语义的发掘和利用找到了一种可行的思路。