论文部分内容阅读
近年来,语义技术的发展使得语义物联网成为了研究热点。基于RDF图的图查询技术已经广泛地应用在不同的领域,例如:社交网络、智能交通、智慧城市等。由于RDF数据被大量发布,其图结构也愈加复杂。因此,传统的图遍历方式会产生较高的查询中间结果冗余,而且复合查询图的环形及星形结构使得在查询过程中顶点被重复遍历,以上两种情况降低了 RDF图的查询效率与查询性能。针对以上问题,本文通过比较当前主流的RDF图查询优化方案的优缺点,经过大量理论分析与实验验证,提出了适用于含有大量RDF数据的RDF图与复杂度较高的RDF查询图的查询优化方法。本课题研究期间的主要工作如下:首先,本文介绍了几种当前较为主流的查询优化方案。通过大量方法与算法有效性实证的实验对比分析,指出了当前面向RDF图的查询优化方案的不足之处;然后,通过分析几种RDF图的基本结构,根据RDF数据图与查询图间的谓词结构通性,建立了适用于大型RDF图的双向谓词路径索引结构。将图结构转化为树结构并根据谓词路径来减少无用顶点的遍历并使得谓词成为了关联特殊RDF查询图(顶点全部是未知变量)与数据图的关键。以相邻谓词结构作为查询的关键路径,通过匹配查询图与数据图的谓词路径结构在索引树上找到对应谓词路径的查询顶点搜索空间,避免遍历全图、环状结构路径重复等时间复杂度较高的操作;由于大型RDF图的谓词路径较长和索引结构空间的限制,在查询开始之前,本文采用了基于分类学思想的RDF图切分技术,以整数线性规划问题建立计算模型,提出了完整的RDF图切分规则。将结构复杂的查询图切分为若干个结构简单的查询子图以简化查询图结构,并通过索引树进行查询结果的匹配;最后,设计了基于图结构切分的RDF子图过滤及连接过程,将得到的几个结果子图进行连接,得到所需的查询结果。