论文部分内容阅读
随着现代科技的不断发展,计算机成为了人们生活中不可或缺的部分,而近年来在数据资料越来越多的前提下,接涌而至的就是数据的存储问题。因为现有的数据大部分是基于不同平台、使用不同格式、出于不同目的构造的,因此它们具有异构性和分布性的特征,这个特性大大影响了数据的交互和重用。为了解决这一问题,国内外科学家提出了许多对数据进行集成的方法,其中基于“本体”这一概念的方法效果尤为良好,成为现在人们研究的新热点。本论文首先对基于本体的数据集成中所用到的理论基础与相关技术进行了介绍,其中在概述本体理论后,给出了本体数据集成的模型框架,并对框架中各部分所用技术进行详细说明,主要有:XML转化、本体构建、XML与OWL映射和查询处理。在此之后本文将侧重点放在了本体映射这一关键技术上,随着越来越多的相似度算法被提出,本体映射模型也开始多样化,但是经过仔细研究发现,已经成熟的模型和普遍使用的相似度算法依然有许多局限性,通过充分分析现存常用的模型特点后,找到了普遍存在的几个缺点,分别为:计算量偏大、自动化程度较低、移植性困难和算法单一。为了改善这四个常见缺点,本文创新性提出了改进的多策略混合映射模型(O-ESMR),此模型是由特征提取、概念筛选、多策略映射和结果处理这四个关键模块构成,其中主要详述了进行创新的概念筛选模块和多策略映射模块。在概念筛选模块中,通过使用WordNet这个技术,可以计算出组成两概念的词语相关度,再通过词语相关度可以推算出概念相似度,在与设定好的阈值进行比较后,筛选出候选概念集,该模块的目的是改善计算量偏大这个缺点;多策略映射模块不仅通过自动加权的方式改善自动化程度较低的问题,并且通过基于名称、属性、结构、实例多策略混合的方法改善移植性困难和算法单一的问题。最后本文对提出的改进的多策略混合映射模型进行了实验,数据集采用OAEI(Ontology Alignment Evaluation Initiative)所提供的 benchmark 数据集,将本文的映射结果与常用的比较成熟的模型结果进行了比较。在对实验结果进行充分分析和研究后,发现该模型在保证查准率和查全率的基础上,成功减少了计算量,进而降低算法的时间复杂度。