论文部分内容阅读
属性路径查询(Property Paths Query)是RDF图数据管理中的一种基本查询,由SPARQL1.1引入,并成为W3C的官方推荐标准。现有的属性路径查询方案均基于多重索引,经过多次迭代查询实现,效率低下,且不具备推理能力。由于开放链接数据运动(Linked Open Data,LOD)的开展,互联网上RDF数据呈现爆炸式增长,海量RDF三元组数据构成了一个巨大的图。在如此大规模的图数据上进行高效的属性路径查询,是一个有意义,且很具有挑战性的工作。本文主要做了两方面工作。首先,针对Property Paths不支持嵌套语法,无法表达部分RDFS(RDF Schema)语义的问题,实现了RDF-Plus原型系统。采用基于自动机的算法,隐式添加推理规则,将Property Paths转化为嵌套正则表达式,在不改变原有的时间复杂度的基础上,实现了对RDFS推理的支持,丰富了查询结果,提高了准确率和召回率。其次,针对随着数据量的爆炸式增长,单机的计算和存储能力无法满足计算需求的问题,结合Google近年提出的Pregel模型和其开源实现Giraph,设计了一种并行算法,通过一次消息扩散和一次回溯求解。算法不仅可以得到符合查询的所有结果,且可以把中间结果作为子图返回,查询结果直观且表达力强。综上所述,本文基于嵌套正则表达式和自动机理论提出的属性路径查询解决方案,可以结合RDFS语义进行推理,在保持原有的计算复杂度的同时,提供更全面的查询结果。基于Pregel模型将单机算法并行化,有效提高了系统的查询速度,使得同等数据规模下,查询时间和计算资源规模呈现明显负相关,具有很好的可扩展性。最后,通过大量的性能评估和对比实验,证明了本文提出的解决方案在大规模RDF图数据的属性路径查询方面,具备显著的性能优势和更好的用户体验。