论文部分内容阅读
语义Web是Tim Berners-Lee提出的下一代互联网远景,通过引入了哲学领域本体的概念,使得计算机能够理解Web上的资源,并能实现计算机之间的语义信息共享。在世界万维网联盟(World Wide Web Consortium, W3C)提出的语义Web体系结构中,基于SPARQL的资源描述框架(Resource Description Framework, RDF)数据查询、基于描述逻辑的Web本体描述语言(Web Ontology Language, OWL)一致性检测推理和基于语义Web规则语言(Semantic Web Rule Language, SWRL)的OWL本体规则推理构成了语义Web领域的研究核心。然而,随着语义Web技术的不断快速发展,本体数据已呈现出大规模性、高速增长性、多样性等大数据特性。然而,传统的本体数据查询与推理工具由于设计运行于单机环境下,不可避免地存在计算性能和可扩展性不足等问题,影响了语义Web技术的进一步推广应用。近年来,云计算因其具备高性能、易扩展的海量数据存储和计算能力已经成为产业界和学术界在信息技术领域的最新研究方向之一,其中开源Hadoop云计算工具已成为当前大数据处理的事实标准。目前,国内外研究人员已开始将Hadoop关键技术引入语义Web研究领域,以探寻分布式环境下的高效率本体数据查询与推理方法,并已逐步形成了以语义Web和云计算技术相结合的新研究方向,但其研究仍然处于起步阶段,存在许多关键问题尚待解决。本文通过结合云计算和语义Web理论和关键技术,研究基于Hadoop的本体数据查询与推理并行化方法,为实现面向大规模语义Web本体的数据管理云服务奠定理论研究基础。主要研究内容和创新性成果包括以下五个方面:(1)以W3C提出的语义Web体系结构为基础,结合云计算Hadoop关键技术特性,提出了一种大规模语义Web本体数据查询与推理云计算框架。首先,对该框架进行了功能层级划分,自底向上分别由物理层、存储层、数据层、逻辑层、接口层、网络层和应用层组成。然后,基于本体查询与推理理论,设计了核心的逻辑层由数据预处理器、数据适配器、查询与推理分析器、查询与推理计划生成器、MapReduce SPARQL查询引擎、MapReduce SWRL规则推理引擎和MapReduceTableau推理引擎构成。该框架的提出为实现高性能、易扩展的语义Web数据管理云服务提供体系结构和数据交互流程支持和借鉴,为进一步研究其中的关键技术理论奠定基础。(2)基于语义Web中RDF三元组数据特性和基于描述逻辑的OWL本体描述语言形式化语义,结合HBase基于列的数据存储模式特性,提出了由三个HBase数据表T_OS_P、T_PO_S和T_SP_O构成的本体数据分布式存储策略,分析了在进行基于MapReduce的本体查询和推理任务时的数据检索机制,并通过与现有的数据存储策略进行对比和分析,论证了本文提出方法能够在本体数据存储空间开销和检索性能方面实现较好的平衡。(3)基于SPARQL语法和形式化语义,结合MapReduce键值对的计算特性,提出了SPARQL复杂组图模式在MapReduce环境下的分布式查询方法。首先提出了SPARQL复杂组图模式查询的相关解析模型定义。然后提出了基于MapReduce的SPARQL复杂组图模式查询任务生成算法,实现了查询任务数的优化,并以此为基础,提出了在map和reduce函数中的SPARQL复杂组图模式分布式查询算法。最后,通过使用语义Web研究领域广泛采用的SP2Bench本体测试数据集和标准测试语句,对提出方法与现有的Jena、Sesame和RDF-3X查询引擎进行了对比实验和可扩展性实验。实验结果表明,提出方法在面向大规模RDF数据的SPARQL复杂组图模式进行查询时,其计算性能和可扩展性均优于传统的单机环境下运行的查询引擎。(4)基于OWL Lite本体所对应的描述逻辑SHIF语义及其Tableau推理算法,结合MapReduce键值对的数据计算特性,提出了基于MapReduce的OWL本体一致性分布式检测推理方法。首先定义了OWL本体一致性检测的相关解析模型。然后提出了基于MapReduce的OWL Lite本体数据划分方法和分布式Tableau推理算法。最后通过使用LUBM本体测试数据集,对提出方法与现有Pellet、RacerPro和HermiT推理引擎进行了对比实验和可扩展性实验,证明了提出方法在进行大规模OWL本体的一致性检测推理时,在计算性能和可扩展性方面均优于传统单机环境下运行的描述逻辑推理引擎。(5)基于SWRL规则语法和形式化语义,结合MapReduce键值对的数据计算特性,提出了基于MapReduce的SWRL规则分布式推理方法。首先提出了SWRL规则推理的相关解析模型定义。然后提出了基于MapReduce的SWRL规则推理计划生成算法,实现了推理任务数的优化。其次,为保证推理的可判定性,提出了DL-safe限制下SWRL规则在map和reduce函数中的分布式推理算法。最后通过使用LUBM本体数据集和自定义SWRL测试规则,对提出方法与Jess和Pellet推理引擎进行了对比实验和可扩展性实验,证明了在处理大规模OWL本体的SWRL规则推理时,提出方法较传统规则推理引擎具备更好的计算性能和可扩展性。