论文部分内容阅读
关联数据中的本体词汇异构和实例关联作为关联数据应用的瓶颈问题近年来倍受关注。本文从上述问题出发,围绕提升属性等同关系发现效率,引入信息熵模型和本体词汇映射来实现方法优化,进而促进不同关联数据集的整合,并达到提升相似度处理效果的目标。基于此,本文尝试构建一个发现潜在词汇映射对象并实现本体词汇映射和实例关联的集成处理系统。该系统将本体词汇映射与实例关联创建有效结合,以优化属性等同关系发现为核心,在此基础上提出映射表示与映射关联处理的实施方法。
论文在分析现有研究方法不足的基础上,将研究线索设定为三个关键过程:(1)如何在LOD环境下有效获得词汇映射和实例关联的数据源?(2)在确定关联数据源后,如何通过优化属性等同关系发现方法寻找数据源的潜在词汇映射对象?(3)在明确上述对象的基础上,如何实现词汇映射的信息表示?在此基础上如何构建映射处理的执行机制?
论文分析了上述过程存在的主要问题,提出了综合化的解决措施,制定了具体解决方案,并通过试验验证方案的可行性。
在对LOD数据源的发现方法研究方面,本文提出LOD数据集的层次结构图和集合表示模型;同时将关联数据集的元数据描述与传统元数据进行辨析,研究描述关联数据集的VOID词汇并分层阐述其内容与用法。基于此提出独立数据集发现和互连数据集发现两种方法并比较二者的联系与区别;同时通过实例查询研究上述方法应用于映射关联环境的特点与使用原则。
在映射的创建方法和模型研究方面,本文在对比已有映射表示语言的基础上选取R2R语言作为映射创建的表示语言,从映射语句、表示规则和函数框架等方面揭示语言的使用方法;同时分析映射创建的流程和基于映射元数据实现映射的部署与发现机制。在此基础上综合实例关联处理,提出基于R2R的映射关联系统VocaR模型,研究相应模块的功能和执行方法。最后通过电影数据集和DBpedia数据集验证方法的有效性。
在映射关联处理方法方面,围绕优化等同关系发现效率,提出基于信息熵的映射关联处理框架。一方面研究关联数据环境下通过实现属性过滤的信息增益算法和解决本体词汇异构的映射处理方法来促进潜在映射对象的发现和实例关联中相似度预处理的优化;另一方面分析基于关联数据环境的相似度算法并对其修正,研究描述算法的匹配原则和操作流程,促进基于映射关联情景的相似度算法优化。最后选取DrugBank和DBpedia两种数据集,将VocaR与其它处理方法进行比较,验证VocaR方法在优化相似度处理方面的有效性。
论文最后对整个研究进行了回顾与思考,归纳了创新点和不足之处,并提出了后续研究的方向。
本论文诬包括图34幅,表22个,附录3个.