论文部分内容阅读
越来越多的数据按照互联数据原则发布到Web上促进了下一代基于Web的应用开发,要在数据集成以及决策支持的情形下使用这些数据必将涉及到对互联数据Web的查询处理。然而,由于互联数据Web的高度开放性,对互联数据Web的查询遇到了前所未有的挑战。
传统查询方法(Q_Tree、DARQ、Sindice等)需要在查询执行前知道与查询相关的数据源的集合或限定查询所面向的数据源,从而不能发挥互联数据Web的潜能。基于RDF链接遍历的查询执行方案(RDF Link Traversal Based Query Execution,RDF-LTE)是一种新颖的对互联数据Web进行查询处理的方法。它根据互联数据Web不同数据源之间存在RDF链接的特性,通过在查询执行过程中不断绑定中间解,发现潜在相关的数据源,从而发挥了数据Web的潜能。
本文围绕:RDF-LTE方案展开研究,首先结合传统Web查询处理两阶段定义法给出互联数据Web上基于RDF链接遍历的数据管理模型的形式化描述,包括数据模型、查询模型以及基于RDF链接遍历的查询执行模型,并证明了RDF-LTE方案的完备性和可靠性;其次基于已有定义对RDF-LTE方案进行了分析,发现现有方案获取了很多对最终结果无贡献的LD-Document,因此本文提出一个查询优纯算法,以减少查询执行过程中不产生贡献的LD-Document的获取,从而减少查询执行时间;另外现有方案只能回答部分类型的SPARQL查询,对某些查询返回结果为空,对此本文结合具体的BGP查询分析了元组模式执行顺序对查询结果的影响,定义了互联数据Web的缺乏反向链接性与RDF-LTE缺乏偶然发现的解,并提出三个启发式的逻辑查询计划优化原则;最后对提出的方案进行了实验以验证提出的算法与原则的有效性与可行性。本课题的研究工作对于互联数据应用的研究具有重要的意义。