分布式环境下RDFS本体的调试方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:tobay1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体可以用来实现某种程度的知识共享和重用。不同的本体语言具有不同的表达能力,能够不同程度的蕴含语义信息。使用相应的推理机,可以获取这些隐含信息。当本体推理结果中出现逻辑冲突时,则需进行本体调试来发现并定位产生问题的事实或公理。本体调试问题的复杂性,决定了对大规模本体进行调试是困难的。本文针对一类本体语言(RDFS),采用分布式处理技术突破I/O和主存对大规模RDFS本体存储和处理能力的限制,研究大规模RDFS本体的调试方法。主要研究内容包括:分布式环境下RDFS本体推理,调试信息的分布式存储与更新,利用调试信息进行分布式本体调试。大规模RDFS本体的调试过程中需要频繁访问本体数据以及相关调试信息,因此需要设计本体推理算法对调试信息进行收集。现有基于MapReduce相关技术的本体推理算法,因涉及大量迭代型运算严重影响了推理效率。为了提高RDFS本体推理的效率,本文采用Spark框架。与MapReduce各任务之间不能复用数据不同,Spark将操作后的中间数据存放在内存中,下一个操作可以直接从内存中输入,省去了MapReduce任务间大量的磁盘I/O操作,这样大大提高了迭代运算的效率。此外,运用字典编码技术对本体数据进行了压缩,降低存储空间开销,进一步提高了推理效率。将推理过程中获得的调试信息存储在分布式数据库系统HBase中以支持本体调试。此外,针对本体更新的情况,提出了调试信息的更新算法。借助本体推理算法得出的调试信息,实现了两种本体调试算法。一种是直接对HBase数据库进行查询,获取调试信息,求取蕴含辩解的算法;而另一种基于本体调试可以转换为图上的回溯操作的考虑,将本体数据及调试信息存储为Hama框架中的图数据结构,从而进行图回溯得到蕴含辩解的算法。本文采用LUBM测试数据集对本体推理和本体调试分别进行了实验。结果表明,本文提出的基于Spark框架的本体推理方法在大数据集下,比基于MapReduce实现的本体推理引擎有更好的性能,速度提高20-30%。本体调试算法能较快的获取到蕴含的辩解,有效处理包含十亿数量级三元组的RDFS本体。
其他文献
在如今大规模网格环境下,如何快速、准确的进行资源发现并能够对其有效的管理对于一个网格系统的部署起着至关重要的作用。虽然目前的资源发现和管理模型,如集中式、分布式、层
P2P网络技术被广泛应用于文件共享、分布式计算和协作系统等各个领域。但长期以来,各个P2P研究组织一直未达成一致的P2P标准,每一个P2P产品供应商都使用不兼容的技术使它的用户
科学计算可视化,是计算机图形学的一个重要研究方向,是图形学的新领域。其中面绘制和体绘制是实现三维曲面重构两种重要手段,面绘制算法主要是按照给定的阈值从体数据中提取
随着 Internet 上中文网页的急剧增加和中文电子出版物的迅速普及,以非受限文本为主要对象的中文自然语言处理的重要性越来越受到人们的关注。而“词”又是自然语言处理系统中
EEG是脑电活动的记录,其中包含了大量的生理与病理信息。当大脑正常时,神经细胞群放电是有规律的自发性放电,当大脑患有不同疾病时,如:脑肿瘤、脑炎、癫痫、脑出血或缺血性疾
入侵容忍是将容错方法运用于安全领域的一种应用程序。该技术假设系统漏洞并不能被完全地消除,外部攻击者或者恶意的内部人员有可能成功地利用这些漏洞对系统进行非法的访问
在使用计算网格共享地理上分布的丰富的异构资源求解大规模问题过程中,使用的资源(包括网络带宽)动态变化,计算网格获取实时、准确的动态性能信息(包括网格资源性能信息和网格
股票预测研究是金融大数据的一个应用研究方向,随着信息技术的发展,股票预测研究不仅仅拘泥于基本分析方法,而是更多地使用技术分析方法,如机器学习方法,并且取得了具有一定意义的研究成果。其中,神经网络方法,为股票预测研究提供了新的建模方法。本文在研究股票预测问题的相关背景、方法或模型以及相关理论知识的基础上,将视角这个概念引入到股票预测问题的研究中,从视角出发来研究股票预测问题。本文的主要研究工作有以下
进入90年代以来,尤其是近年来电信技术、网络技术和计算机技术迅猛发展,电信服务产业的自然垄断特性日益减弱,已逐渐具备了市场化发展的基础。发达国家已经在电信服务市场自由化
程序演化是根据某些法则从一个程序生成另一个新的程序,这两个程序在语义上是等价的,通过一系列保证正确性的对源程序的演化,进行算法和数据结构的求精,最终将源程序演化成一