大规模RDF图数据的SPARQL Theta连接查询处理研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RDF作为语义网框架的一项核心概念,因其表达灵活、方便的特点,常被用来表示结构化或非结构化数据。越来越多的RDF数据,为大数据分析提供了数据资源,使得专家学者们开始研究分析RDF数据。在数据分析领域,Theta连接查询是非常常见的查询,而RDF的查询语言SPARQL在2013年才对Theta连接有了全面的定义。为此,SPARQL Theta连接查询应得到RDF引擎的全面支持。尽管一些学者尝试借助已有的关系数据库或在key-value数据库实现Theta连接从而对SPARQL Theta连接查询进行处理,但这些方法均未能针对RDF数据的特性来进行优化,因此处理效率较低。RDF在线分析系统ThetaStore旨在提供一种大规模RDF图的Theta连接查询处理方法,并能够以统一的方式处理等值连接查询。该方法首先采用伙伴内存分配的方式为RDF常量数据分配保序ID,并建立相应的数据字典,从而压缩存储空间的同时避免将Theta连接查询转化为大量的等值连接查询。其次,采用了扩展的查询图模型将Theta连接查询转化为查询图,进行查询优化,再将查询图分解成多个可并行执行的星型子查询,并为每个星型子查询生成相应的执行计划。最后,查询的中间结果规模往往比较大,为了提高查询性能,采取约束早传递的优化策略尽早的削减中间结果,且采用并行的方式执行。在等值连接查询的处理上,ThetaStore与目前流行的RDF数据管理系统RDF-3X、TripleBit相比,在中间结果较大的查询上性能得到了显著提升。在Theta连接查询的处理上,与关系数据库MonetDB及语义仓储Virtuoso相比,性能也得到数倍的提升。
其他文献
人脸识别已成为图像分析和理解中最成功的应用之一,其在安全监控、存取控制、人工智能、人机交互等方面得到了广泛应用。但由于年龄变化会引起人脸形状和纹理上的变化,并且对
随着信息技术的发展,对于大量数据的有效存储需求急剧增加,文件数据的安全性受到越来越多的关注。在此背景下,对数据存储与数据安全技术进行分析与研究,设计并搭建了数据安全
随着互联网技术的发展,Web技术使GIS功能得到扩展,具有广泛应用前景的WebGIS技术孕育而生。WebGIS以网络为平台,改变了传统GIS的运行模式,使之不再是少数专业人员使用的工具,成为
交通拥堵已严重的影响城市的发展进程。为了改善城市的交通服务水平,当今世界主要国家都在研究智能交通系统(Intelligent Transport System,ITS),而浮动车技术正是一种为适应
乳腺癌计算机辅助检测与诊断系统是早期乳腺癌检测的重要辅助工具。乳腺钼靶图像增强技术是其中的重要研究内容之一,其目标是提高乳腺癌的检测水平。针对图像中存在模糊、噪
量子纠错码是近年来兴起的用于克服量子信息在存储、传输和计算过程中所发生的量子消相干效应的新型编码技术。量子纠错码在量子计算机的实现、量子安全通信以及容错量子计算
随着信息技术的日益发展,如何处理海量数据成为目前的研究热点。Map Reduce分布式计算框架以其处理数据量大、简单易用、可扩展性强等特点成为进行大数据处理时的主要选择之
基于神经网络的分类器是模式识别领域中广为使用的一种分类方法。为了得到精度很好的神经网络分类器模型,需要对神经网络的训练数据进行特征约简,删除冗余特征和无关特征。约
神经网络泛化能力是影响其可用性的重要方面,如何提高泛化能力日益受到关注。一种普遍情况是一些神经网络在训练阶段能够取得很好的训练精度,但在实际应用阶段却产生了较大的
空间曲线的旋转最小标架在计算机图形学、计算机动画等领域受到广泛的关注。旋转最小标架在扫曲面建模、三维漫游、运动插值等方面有着重要的应用。由于空间曲线的旋转最小标