海量RDF数据存储与查询技术的研究与实现

来源 :北京工业大学 | 被引量 : 16次 | 上传用户：cao240

【摘要】

：

随着互联网上数据规模的日益增长，人们准确、快速、全面获取信息变得越来越困难，语义网(Semantic Web)通过对互联网增加语义支持，使机器能够理解数据的含义，帮助人们快速获取信息

【作者】

：

宋纪成

【出处】

：

北京工业大学

【发表日期】

：

2013年01期

【关键词】

：

语义网 RDF 分布式存储 HBase MapReduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网上数据规模的日益增长，人们准确、快速、全面获取信息变得越来越困难，语义网(Semantic Web)通过对互联网增加语义支持，使机器能够理解数据的含义，帮助人们快速获取信息资源。RDF(Resource Description Framework,资源描述框架)是语义网中数据交换的标准，它以<主语,谓词,宾语>三元组的形式描述语义信息。随着语义网技术的不断完善与广泛应用，RDF数据规模也在急剧增加，海量RDF数据的涌现给RDF的管理带来巨大挑战，构建可扩展的RDF存储和查询系统成为语义网领域的研究热点。MapReduce是近年来新兴的海量数据处理技术，Hadoop是MapReduce开源实现工具，基于Hadoop平台研究海量数据处理问题被广泛关注；HBase(HadoopDatabase)，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，和Hadoop MapReduce有着完善的集成机制。通过研究RDF存储和查询的原理以及HBase的特点，分析HBase存储RDF的优势，给出了一个基于HBase的RDF存储系统设计方案，并实现了RDF存储原型系统，主要包括以下内容：1.根据RDF存储和查询的特点，结合HBase自身的索引机制以及行健(HBase RowKey)按字典排序的特性，设计了RDF在HBase上的存储模式。2.针对海量RDF数据的加载问题，给出了一种基于MapReduce的并行加载算法，实现将RDF数据快速加载到HBase的功能。3.根据RDF在HBase上的存储模式，设计了三元组模式查询响应策略；采用MapReduce迭代实现基本图模式查询的并行处理，给出了一种以HBase Region为数据源的MapReduce并行连接(join)方法。通过构建基于HBase的RDF存储原型系统，采用基准测试工具对系统的加载性能和查询性能进行了测试和分析，试验表明基于HBase实现海量RDF数据的存储和查询系统是一种有效的可选方案。

其他文献

基于声发射技术的金属动态塑性摩擦研究

利用声发射技术研究了凸模胀形过程中有油润滑和干摩擦2种不同摩擦条件下的动态摩擦过程，得到了凸模胀形声发射特性曲线，并对声发射特性曲线进行了分析。结果表明：凸模胀形过程

期刊

声发射动态摩擦金属塑性成形acoustic emission dynamic friction plastic formation of metall

论当前我国秘书工作走向“参谋型”的主要障碍

秘书工作的职能无非是“参与政务”与“管理事务”两个方面。长期以来,由于种种原因,我国秘书工作的参谋作用远未得到充分发挥。那么,领导活动到底需不需要“参谋型”的秘书

期刊

参谋作用秘书工作者主要障碍

高强度聚焦超声的原理和应用

高强度聚焦超声(High Intensity Focused Ultrasound,简称HIFU)技术是近年来蓬勃发展起来的一种无创外科工具,并已应用于临床的治疗中。该技术的主要生物效应包括:热效应、空

期刊

高强度聚焦超声肿瘤学过敏性鼻炎泌尿学

浅谈企业应收账款的管理

应收账款是指企业因对外销售产品、提供劳务等业务应向购货方或接受劳务的单位收取的款项及代垫的运杂费.企业的应收账款在财务管理中有着十分重要的地位.因为它是企业的一项

期刊

企业应收账款管理清理内部管理责任制账龄分析法坏账核销

坐月子能刷牙洗澡吗?

<正>广东省广州市邱女士我姐今年34岁,刚生完孩子,现正坐月子。听她婆婆讲,月子里有很多讲究,如不让洗澡、吃水果等生冷食品、不能刷牙等,这些合理吗?老一辈人总是说坐月子期

期刊

刷牙洗澡

基于模糊C-均值聚类算法的柴油机磨损状态评判

论述了模糊C-均值聚类算法的原理与步骤,选取光谱分析中磨损元素的含量和3个定量铁谱参数作为特征参数,将模糊C-均值聚类算法应用到柴油机磨损状态评判体系中,可以得到聚类中

期刊

模糊C-均值聚类算法标准向量谱参数光谱分析元素选取模糊聚类铁谱聚类中心验证evaluation of wear conditionfuzzy

基于主成分分析和分层树集合划分的Huffman算法图像压缩研究

互联网的飞速发展,产生了大量的图像信息.为了减少图片占用的存储空间,提高图像质量,提出了一种将主成分分析（PCA）和分层树集合划分（SPIHT）压缩算法相结合的有损图像压缩算法.首

期刊

PCASPIHTHuffman图像压缩PNSRSSIM

海量RDF数据存储与查询技术的研究与实现

其他学术论文