基于HBase的大规模RDF数据存储与检索技术的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:kingsword001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义网技术的快速发展和信息抽取技术的不断进步,对应生成RDF数据的速度也变得越来越快,常见的RDF数据集中包含的三元组条数已达到亿级的数量单位。面对如此规模的RDF数据,如何高效存储和检索这些数据成为亟待解决的问题。如果继续采用传统的方式集中管理大规模RDF数据集则不可避免地会出现局限性的问题,而现存的很多分布式管理方案为了提高查询效率又浪费了过多的存储空间,并且存在不能满足推理查询的问题。所以如何高效存储和检索大规模RDF数据是值得研究的方向。  针对当前存储和检索RDF数据存在的各种不足,本论文首先设计并实现了一种基于HBase的RDF数据与本体数据进行编码后存储的方案;然后设计并实现了SPARQL解析器和针对本论文存储模型的查询算法;最后通过详细的实验过程验证了本论文所提出方案的有效性和正确性。具体包含的研究内容如下:  (1)提出了对RDF数据进行MMH编码的方案。经分析发现在RDF数据集中有很多字符串是重复出现的,所以在对比几种Hash算法之后选择了Murmur Hash算法对RDF数据中字符串进行编码,编码之后能够有效减少存储空间。  (2)设计并实现了基于HBase的RDF数据存储方案。首先解析出本体文件中类和属性之间的关系并将其存储到HBase对应的表中,目的是为了保存RDF数据之间隐含的关系,保证存储数据的完整性;结合RDF数据自身存储与查询的特点,在设计过程中充分结合HBase的特点设计出用两张表存储RDF数据的方案,在保证RDF数据查询效率的基础上,尽量减少存储空间。  (3)设计并实现了SPARQL解析器和针对本论文存储模型的查询算法。实现了SPARQL解析器对查询语句进行预处理的操作,完成推理过程保障结果数据的完整性;设计与实现了RDF三元组查询时八种不同形式的TriplePattern查询算法和基于贪心策略的BGP推理查询算法,贪心选择执行代价最小的中间结果集优先合并来缩减Spark连接操作时间,提高查询效率。  (4)实验验证本论文所提出的存储和查询方案的有效性与正确性,并与其他方案进行对比实验分析。针对本论文所提出的RDF数据存储和查询方案,利用六种不同规模的LUBM数据集和八种不同的SPARQL查询语句详细测试数据存储空间、加载时间和查询时间。并且与其他管理RDF数据的方案进行对比实验,最终得出本论文所提方案有效且正确的结论。
其他文献
车载自组织网络(VANET)是以车辆为节点,不依赖于基础设施的一种特殊的多跳无线移动自组织网络(MANET),是目前智能交通系统领域中研究的热点之一。由于VANET中车辆的高速移动
无线传感器网络涉及到嵌入式系统、计算机网络、无线通信技术以及信息处理技术等多个领域,是一种跨学科的综合技术,在军事、农业、医疗健康、应急救援以及环境监测等领域有着广
一直以来,传统的医疗监护方式都是被监护人在医院接受医生和护士的监护,但这种方式不仅占用了有限的医疗资源,设备之间复杂的连线给病人和医院也带来了诸多不便。另外,中国现
随着Internet技术的快速发展,越来越多的领域采用网络地理信息系统(WebGIS)作为其展示和处理空间信息的手段,它改变了地理信息的获取、传输、发布、共享和应用的方式。网络地
随着无线传感器网络技术的发展和感知矿山的提出,把物联网技术应用到感知矿山中已经成为了当务之急。本课题来源于徐矿集团夹河煤矿感知矿山示范工程。无线传感器节点体积小,安
随着无线传感器网络的不断发展,感知数据的查询处理技术已经成为各个应用领域的关键技术,其目的是给用户提供所需要的各种数据。由于传感器节点独有的特点,查询处理技术研究的主
目前,难加工材料已经广泛应用到航空航天、船舶、核能、兵器制造等领域,然而,由于难加工材料加工工艺知识具有复杂性、多样性、经验性和不确定性等特点,长期以来,如何完善工艺知识
随着社会经济的迅速发展,人们对水资源的要求和依赖程度越来越高。由于人类社会在高速发展过程中对水资源的掠夺式开采和不合理使用,加之水资源自身的有限性和不均匀性,使得水资
Internet中的网络主要依赖于有线网络,是目前世界上最大,应用最广的计算机网络。随着微电子技术的兴起以及军事应用等其他领域应用的需要,一类新的网络形式开始出现,这类网络
高等职业技术教育是面向就业,以实践能力为重点的教育类型。校园网是职业院校开展招生、教学、管理、就业以及后勤服务的基础设施。改善校园网可以有效的提高职业院校的工作