论文部分内容阅读
本体是概念、关系及其相关要素的规范化描述。本体被广泛用来表达领域知识并成为不同应用系统间信息集成和互操作的基础。然而,由于本体设计者对领域概念、关系及相关要素理解和抽象的差异,导致了领域本体之间的异构特性,这种异构阻碍了信息系统之间的互操作。为促进不同应用之间的互操作,需要建立异构本体之间的映射模型,即找到对应元素之间的映射关系。近年来,研究者提出了许多映射方法,主要包括Cupid、COMA、Glue、Rondo、S-Match等。这些方法可大致分为三类:术语的方法、结构的方法和逻辑的方法。术语的方法简单易行,但当概念术语之间缺乏先验知识时,该方法往往难以取得好的效果。结构的映射方法很难处理结构异构和语义约束较多的情况。逻辑的方法,则由于推理条件太严格,往往会丢弃许多可能正确的映射。现有映射方法的另一个共性问题是效率较低,远远不能满足大规模本体映射的要求。本文重点研究两个问题:1.综合利用有助于本体映射的各种信息,提高本体映射的准确度;2.提高本体映射效率并探索更具普遍性的新方法,解决大规模本体映射的问题。本文的主要工作和创新如下:1.提出了一个基于解析图的本体映射算法OPM,该算法分别构造了两个待处理本体的本体解析图,将两个异构本体的映射问题转化成为两个本体解析图的最优匹配问题;再通过动态更新本体解析图中顶点元素的迭代相似度,迭代计算两个图的最优匹配。实验结果表明,OPM算法能够适用于各种类型的本体数据,其平均查准率和查全率(0.95,0.90)比现有方法中最好的结果Fujitsu(0.89,0.84)均有约6%的提高。2.为进一步提高查准率,本文提出了一种基于公理的本体映射校正方法ARevision。本体中某些恒真的约束关系可以用一些公理来描述,并通过对这些公理的模式校验来识别和消除错误的映射。实验结果表明,通过这样的校正,OPM方法的查准率又有2-3%的提高。3.提出了一种面向大规模本体的模块化映射算法MOM,并对大规模本体的模块分割技术进行了深入研究。通过Hopcroft-Karp的模块分割算法,将一个大规模本体映射转化为多个较小的本体模块映射问题,降低了映射复杂度,减少了映射时间。为实现一般性大规模本体的合理分割,本文提出了一种基于聚类的CBPartition方法。该方法具有以下特点:(a)不依赖于本体本身的结构特点,适用性强;(b)由于映射模块仅包括两个本体中的相似部分,分割效率高。