论文部分内容阅读
随着语义Web的快速发展,行业应用数据越来越多地选用RDF格式进行发布,RDF语义数据规模呈现爆炸性增长趋势,三元组条数已经远远超过百亿。RDF数据规模的急剧增大加深了语义数据管理工作的复杂性,也对语义数据的推理工作提出了新的挑战。如何能够高效解决大规模RDF数据的推理问题成为许多研究工作的焦点。当前大多语义推理引擎执行时间较长,难以适应大规模语义数据推理工作的需求。针对这一问题,本文基于消息传递机制提出一种新的RDFS并行推理方案。该方案充分利用RDF数据的图结构特征,根据推理规则的特点,建立不同的RDFS推理过程的图上“加边模型”。该“加边模型”将由条件得到结论的推理过程抽象成在图上两个顶点之间添加新边的过程。同时,深入分析RDFS推理规则之间的依赖关系,优化RDFS推理规则的执行顺序,减少并行推理过程中的迭代次数。整个并行推理计算过程以图上的顶点为计算中心,根据已经建立的不同的推理模型,向其他相关顶点传递推理消息。计算过程由该推理消息进行驱动,通过分析接收到的推理消息内容,完成推理任务。当所有推导出的新三元组以新边的形式加入到原RDF图中时,整个推理过程结束。最后,根据建立的推理模型,以消息传递机制的Pregel模型为基础,合理设计并行推理算法。在开源框架Giraph上,实现了基于消息传递机制的RDFS并行推理框架MPPIE,并进行大量的性能评估和对比实验,验证所提方案的正确性和高效性。在执行性能上,较当前性能最好的并行推理引擎平均快30倍以上。本文基于消息传递机制提出一种新的并行推理框架MPPIE,实验结果与分析表明,基于消息传递机制的RDFS并行推理方式具有显著的性能优势。在标准数据集LUBM和真实数据集DBpedia上,所提推理方法的执行速度均比当前性能最好的语义推理引擎WebPIE快一个数量级,且展现了良好的可扩展性。