论文部分内容阅读
随着互联网上数据规模的日益增长,人们准确、快速、全面获取信息变得越来越困难,语义网(Semantic Web)通过对互联网增加语义支持,使机器能够理解数据的含义,帮助人们快速获取信息资源。RDF(Resource Description Framework,资源描述框架)是语义网中数据交换的标准,它以<主语,谓词,宾语>三元组的形式描述语义信息。随着语义网技术的不断完善与广泛应用,RDF数据规模也在急剧增加,海量RDF数据的涌现给RDF的管理带来巨大挑战,构建可扩展的RDF存储和查询系统成为语义网领域的研究热点。MapReduce是近年来新兴的海量数据处理技术,Hadoop是MapReduce开源实现工具,基于Hadoop平台研究海量数据处理问题被广泛关注;HBase(HadoopDatabase),是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,和Hadoop MapReduce有着完善的集成机制。通过研究RDF存储和查询的原理以及HBase的特点,分析HBase存储RDF的优势,给出了一个基于HBase的RDF存储系统设计方案,并实现了RDF存储原型系统,主要包括以下内容:1.根据RDF存储和查询的特点,结合HBase自身的索引机制以及行健(HBase RowKey)按字典排序的特性,设计了RDF在HBase上的存储模式。2.针对海量RDF数据的加载问题,给出了一种基于MapReduce的并行加载算法,实现将RDF数据快速加载到HBase的功能。3.根据RDF在HBase上的存储模式,设计了三元组模式查询响应策略;采用MapReduce迭代实现基本图模式查询的并行处理,给出了一种以HBase Region为数据源的MapReduce并行连接(join)方法。通过构建基于HBase的RDF存储原型系统,采用基准测试工具对系统的加载性能和查询性能进行了测试和分析,试验表明基于HBase实现海量RDF数据的存储和查询系统是一种有效的可选方案。