大规模RDF图数据的并行推理关键技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:jackyong63
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义Web的快速发展,行业应用数据越来越多地选用RDF格式进行发布,RDF语义数据规模呈现爆炸性增长趋势,三元组条数已经远远超过百亿。RDF数据规模的急剧增大加深了语义数据管理工作的复杂性,也对语义数据的推理工作提出了新的挑战。如何能够高效解决大规模RDF数据的推理问题成为许多研究工作的焦点。当前大多语义推理引擎执行时间较长,难以适应大规模语义数据推理工作的需求。针对这一问题,本文基于消息传递机制提出一种新的RDFS并行推理方案。该方案充分利用RDF数据的图结构特征,根据推理规则的特点,建立不同的RDFS推理过程的图上“加边模型”。该“加边模型”将由条件得到结论的推理过程抽象成在图上两个顶点之间添加新边的过程。同时,深入分析RDFS推理规则之间的依赖关系,优化RDFS推理规则的执行顺序,减少并行推理过程中的迭代次数。整个并行推理计算过程以图上的顶点为计算中心,根据已经建立的不同的推理模型,向其他相关顶点传递推理消息。计算过程由该推理消息进行驱动,通过分析接收到的推理消息内容,完成推理任务。当所有推导出的新三元组以新边的形式加入到原RDF图中时,整个推理过程结束。最后,根据建立的推理模型,以消息传递机制的Pregel模型为基础,合理设计并行推理算法。在开源框架Giraph上,实现了基于消息传递机制的RDFS并行推理框架MPPIE,并进行大量的性能评估和对比实验,验证所提方案的正确性和高效性。在执行性能上,较当前性能最好的并行推理引擎平均快30倍以上。本文基于消息传递机制提出一种新的并行推理框架MPPIE,实验结果与分析表明,基于消息传递机制的RDFS并行推理方式具有显著的性能优势。在标准数据集LUBM和真实数据集DBpedia上,所提推理方法的执行速度均比当前性能最好的语义推理引擎WebPIE快一个数量级,且展现了良好的可扩展性。
其他文献
随着互联网技术的迅速发展,网上文本数量呈指数级增长,如何有效检索这些海量信息成为当前重要的研究课题。文本信息检索是处理海量文本的重要手段。文本信息检索是指从大量文
本文结合DOM(Document Object Model)和SAX(Simple APIsfor XML)各自的优点有效地实现了XML文档与BO(Business Object)对象的数据交换,建立了完善的SID(Shared Information D
近年来,利用密码电路工作时的旁路信息泄露而进行的侧信道攻击对现代密码系统造成了极大的安全隐患。传统的侧信道攻击在某些特定条件下可能存在着攻击效果不理想,攻击方案过
NGN是一个统一的、多业务的、以数据网络为中心、在开放的业务平台上提供不同服务质量业务的下一代网络。通过与电信网络的融合,可以实现多样化的电信增值业务,SIP传真服务就
学位
H.264/AVC是国际电信联合会(ITU-T)和国际标准化组织(ISO/IEC)共同研究并发布的下一代视频压缩标准。该标准为了使视频压缩编码在比特率受限条件下,得到最优化的压缩效率,其
本体是一种重要的知识表示形式,它是共享概念模型的明确的形式化规范说明,并在语义Web、知识工程、软件工程、生物医学信息学和社会化网络等领域中得到广泛应用。然而,本体创建
随着网络技术的迅速发展,网络安全问题已经成为当今网络技术的研究重点。通常黑客和病毒是通过系统中存在的漏洞对目标主机进行系统攻击的。漏洞扫描技术就是对系统中存在的
构件技术已成为软件产业发展的关键技术之一,推行基于构件的软件开发是当前软件生产的世界潮流。构件的描述和检索是充分发挥构件技术优势、实现软件复用、构筑高质量软件产品
随着互联网技术的快速发展,使得Web技术得到了广泛的应用,并且获得了巨大的成功。Web技术有着良好的通用性、平台独立性和交互性。信息化的不断发展,促使Web技术应用到不同的