海量RDF数据存储与查询技术的研究与实现

来源 :北京工业大学 | 被引量 : 16次 | 上传用户:cao240
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上数据规模的日益增长,人们准确、快速、全面获取信息变得越来越困难,语义网(Semantic Web)通过对互联网增加语义支持,使机器能够理解数据的含义,帮助人们快速获取信息资源。RDF(Resource Description Framework,资源描述框架)是语义网中数据交换的标准,它以<主语,谓词,宾语>三元组的形式描述语义信息。随着语义网技术的不断完善与广泛应用,RDF数据规模也在急剧增加,海量RDF数据的涌现给RDF的管理带来巨大挑战,构建可扩展的RDF存储和查询系统成为语义网领域的研究热点。MapReduce是近年来新兴的海量数据处理技术,Hadoop是MapReduce开源实现工具,基于Hadoop平台研究海量数据处理问题被广泛关注;HBase(HadoopDatabase),是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,和Hadoop MapReduce有着完善的集成机制。通过研究RDF存储和查询的原理以及HBase的特点,分析HBase存储RDF的优势,给出了一个基于HBase的RDF存储系统设计方案,并实现了RDF存储原型系统,主要包括以下内容:1.根据RDF存储和查询的特点,结合HBase自身的索引机制以及行健(HBase RowKey)按字典排序的特性,设计了RDF在HBase上的存储模式。2.针对海量RDF数据的加载问题,给出了一种基于MapReduce的并行加载算法,实现将RDF数据快速加载到HBase的功能。3.根据RDF在HBase上的存储模式,设计了三元组模式查询响应策略;采用MapReduce迭代实现基本图模式查询的并行处理,给出了一种以HBase Region为数据源的MapReduce并行连接(join)方法。通过构建基于HBase的RDF存储原型系统,采用基准测试工具对系统的加载性能和查询性能进行了测试和分析,试验表明基于HBase实现海量RDF数据的存储和查询系统是一种有效的可选方案。
其他文献
利用声发射技术研究了凸模胀形过程中有油润滑和干摩擦2种不同摩擦条件下的动态摩擦过程,得到了凸模胀形声发射特性曲线,并对声发射特性曲线进行了分析。结果表明:凸模胀形过程
秘书工作的职能无非是“参与政务”与“管理事务”两个方面。长期以来,由于种种原因,我国秘书工作的参谋作用远未得到充分发挥。那么,领导活动到底需不需要“参谋型”的秘书
香粳新品系9915系近年从江苏省引进的香型早熟晚粳,全生育期155天左右,茎秆粗壮,穗大粒多,米质优,一般亩产650千克左右,高产可达700千克.在我地大都采用直播方式.其技术措施
高强度聚焦超声(High Intensity Focused Ultrasound,简称HIFU)技术是近年来蓬勃发展起来的一种无创外科工具,并已应用于临床的治疗中。该技术的主要生物效应包括:热效应、空
应收账款是指企业因对外销售产品、提供劳务等业务应向购货方或接受劳务的单位收取的款项及代垫的运杂费.企业的应收账款在财务管理中有着十分重要的地位.因为它是企业的一项
<正>广东省广州市邱女士我姐今年34岁,刚生完孩子,现正坐月子。听她婆婆讲,月子里有很多讲究,如不让洗澡、吃水果等生冷食品、不能刷牙等,这些合理吗?老一辈人总是说坐月子期
期刊
论述了模糊C-均值聚类算法的原理与步骤,选取光谱分析中磨损元素的含量和3个定量铁谱参数作为特征参数,将模糊C-均值聚类算法应用到柴油机磨损状态评判体系中,可以得到聚类中
污染源监测是污染物排放总量控制工作的基础 ,企业环境监测的工作方针、职能决定了在总量控制工作中的技术支持作用。文章阐述了充分发挥冶金企业环境监测工作在污染物排放总量控制中的技术支持和保障作用的重要性
金岭铁矿选矿厂采用频敏变阻器取代球磨电机的生铁电阻,在原控制线路基础上进行技术改造,改进了球磨电机的起动方式,改善了球磨电机的起动性能,同时节约了成本。
互联网的飞速发展,产生了大量的图像信息.为了减少图片占用的存储空间,提高图像质量,提出了一种将主成分分析(PCA)和分层树集合划分(SPIHT)压缩算法相结合的有损图像压缩算法.首