论文部分内容阅读
由于本体的广泛应用以及万维网自身分布性特点,导致同一领域不同用户构造标识同一知识范畴的不同本体。这种表示同一知识范畴而采用不同方式构造出的不同本体,称为异构本体。本体异构使得标识同一资源的不同本体无法重用和共享,进而成为系统相互理解、信息交换、实现互操作的主要障碍之一。目前,本体映射是解决异构现象的主要方式之一。本体映射是发现两个领域本体概念之间的相关性的过程,是本体间概念和关系达成一致性的一种规范说明。本体映射框架包括五个模块,其中概念相似度计算是其中的一个核心步骤,概念相似度算法的好坏直接影响映射结果的准确性。本文设计一种综合的概念相似性算法,分别从概念的义原描述式(DEF)、概念实例和概念属性三个方面考虑。算法目的是为了克服传统算法时间和空间复杂度高、不够全面、误差大、无法量化的问题。根据《知网》描述,概念可以由义原描述,义原与义原之间的关系体现在义原层次体系结构和义原分类树上,本文从概念的两个方面:主要义原特征描述和次要义原特征描述进行相似度计算。对没有上下位关系的次要义原特征描述式中的义原,根据义原的层次体系结构来计算相似性。对有上下位关系的主要特征义原,本文根据其在义原特征树中的语义距离来计算相似度。基于义原的相似度计算消除了特定领域中概念的歧义性,但概念所属领域不同,概念的语义也可能不一样,因而在概念相似性计算中需要有能反映出概念所属领域的因素。在本体构建中,概念的实例和属性以一种特殊的概念被定义,这种定义是基于概念所属领域。因此,本文从概念的实例和属性两方面计算概念的相似性。基于实例的相似性算法,利用统计思想从大量实例中随机抽出一部分参加相似性计算,从实例的值域、范围和单位进行相似度匹配,给出相似度计算公式,并对实例相似性计算的中间数据采用特殊的压缩矩阵方式存储。基于属性的相似度计算,分别从构建本体常用到的四种属性关系:逆反关系、传递关系、对称关系、功能关系以及属性的定义域和值域考虑概念的相似性。基于这四种关系的概念是同一本体中的两个概念,本文将两个本体概念层次树中有直接映射关系的上层结点作为公共结点来计算概念的相似度。在文章的最后,构建两个异构医疗本体。通过异构医疗本体,对算法进行了验证和分析,给出了部分实验数据并与本体映射模型MOMF数据结果进行了比较,在附录中通过截图方式给出了实验用到的部分代码和数据文件。