论文部分内容阅读
随着大数据时代的到来,数据存储以及快速准确获取自己想要的信息变得越来越困难。语义网和Hadoop分布式平台的出现能有效解决数据存储及获取数据的困境,但伴随而来的便是大规模语义元数据的出现,这也使得数据的管理面临巨大的挑战,所以构建一个实用的语义元数据分布式存储系统对推进大数据的分析与应用变得愈来愈重要。论文首先介绍了语义网与RDF语义元数据存储技术的研究背景及研究现状,讨论了课题研究的重要性及意义,并在此基础上阐述了语义元数据、资源描述框架RDF、Hadoop及HBase等相关技术;其次,分析了RDF语义数据存储存在的问题,并提出一种基于HBase的RDF语义元数据存储策略,该存储策略主要是针对HBase中Rowkey字段的数据存放提出一种优化方法,即充分综合数据加载、数据去重存储以及数据查询响应等因素,将RDF数据的谓语进行散列计算后,将该值与谓语存放于Rowkey中;第三,论文在优化后的RDF数据存储策略基础上提出了数据加载、数据去重及数据查询算法。其中,数据加载算法主要是利用HBase自带的数据加载工具完成,数据去重算法是利用模糊C均值聚类算法实现模糊聚类,并通过扫描谓语表来进行优化,进而获取初始聚类中心值,而数据查询方法是通过将RDF数据的三个分量分别抽象化,借鉴基本图模式查询方法,通过判断查询条件找到相关节点及边,在为节点进行打分的基础上对节点进行排序,找出最佳的前k个值为最终结果输出;最后,论文利用当前最常用的语义网数据测试集LUBM在小型集群中进行测试,通过对各评价指标的实验结果分析,证明了论文提出的存储策略及算法是可行的。