论文部分内容阅读
语义Web的出现使计算机能够理解Web上的信息,从而实现了信息的自动处理、共享和重用。本体是共享概念模型的形式化规范说明,是语义Web实现的关键因素。由于各个本体构建的目的不同,本体的创建者(领域专家)知识背景的差异,本体建模方法不尽相同,本体的构建缺少一个统一的标准来规范约束,导致了大量异构本体的出现。在同一个或者重叠领域产生了许多不同的本体,这就引发了本体异构问题,背离了本体对共享概念进行说明的初衷。为了解决本体异构问题,就必须去发现本体间的语义联系并进行本体映射。本文首先提出了一个基于粒子群优化算法的经典本体映射框架。本体映射问题是一种离散问题,因为实体在映射结果中要么出现,要么不出现。为了让粒子群算法能够适用于本体映射,本文将本体映射问题形式化为一种优化问题并对粒子群算法模型进行了适当的改进。形式化为的优化问题的两个目标是:(1)识别出一个映射对平均相似度值最大的映射结果;(2)使映射结果中的映射对数量最大化。本文借鉴了Correa在数据挖掘中使用的粒子群算法进行了改进,一是改变了已有算法中粒子维度固定不变这个限制,二是针对本体映射重新设计了粒子的迭代更新的策略。在本文设计的算法中,每个粒子代表源本体和目标本体的一个候选映射结果集,每个粒子有一个速度值,速度值受到在迭代过程中群体和个体所发现的历史最优值的影响,这保证了群体向着最优解方向收敛。然后,在这一框架之下,本文实现了对基础映射方法设计,文中共设计了5种基本映射算法,分别是:基于语言学技术的基础映射算法、基于WordNet的基础映射算法、基于信息检索的相似度比较的基础映射算法、基于结构比较的基础映射算法和利用类和属性的相互关系比较的方法。其中,基于语言学技术的算法又分为字符串直接比较法、子串比较法和编辑距离计算法三种。接下来,本文提供了一种合并策略对通过基本映射算法计算所得结果进行合并,这样就得到了粒子群算法中所需要的实体对的适应值。最后根据本文提出的算法设计了一个本体映射系统,以OAEI本体映射国际组织在2010年公示的本体测试数据集benchmarks为测试数据进行实验。实验的目标是用测试数据集的51个本体对系统在查准率和查全率两个方面进行评估,为了更进一步测试本文算法的有效性,试验中对系统在改进的查全率和查准率两个指标上进行了测试。实验结果表明,本文提出的本体映射方法得了预期的查全率和查准率,与现有的并且参加OAEI2010竞赛的本体映射系统的映射结果进行对比,发现本文提出的方法表现良好,同时也发现了不足之处和需要改进的空间。