基于大数据平台的知识图谱存储访问系统的设计与实现

来源 :东南大学 | 被引量 : 3次 | 上传用户:linqingxia15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义知识图谱广泛应用于搜索、问答和分析等场景,需要可扩展存储模式和分布并行查询支撑。本文在Big Table模型下设计具有存储负载分布均衡、局部节点聚集存储特点的分布聚集存储模式;采用Group-By模式分布并行计算查询树的分布并行查询引擎。实验验证,本文设计的存储模式和查询引擎具有良好的水平扩展性。具体工作总结如下:(1)分布聚集存储模式:基于Big Table模型对逐行存储的实体集合经随机前缀和预分区操作进行均匀分割和分布存储,实现负载均衡;同时,随机前缀也能够对同类型的实体均匀地分布到节点存储,并在单个节点上按实体类别聚集。(2)分布并行查询引擎:基于分布聚集存储模式设计两种采用不同方案的分布并行查询引擎:MIQE(Memory Iteration Query Engine)和IIQE(Inverted Index Query Engine)。MIQE采用分布式内存迭代技术以过滤和连接操作并行查询在内存中以抽象集合表示的实体,IIQE将倒排索引与协处理器结合在集群中以并行索引查询的方式查询实体。上述两种查询引擎都旨在通过减少磁盘I/O和并行查询的方式提升知识图谱系统的读性能,加快知识图谱查询速度。(3)原型系统的实现和性能验证:基于上述研究,本文设计并实现基于大数据平台的知识图谱存储访问系统。实验验证,基于分布聚集存储模式和分布并行查询引擎的知识图谱存储访问系统具有良好的水平扩展性,面对大规模知识图谱查询,IIQE查询引擎的查询性能更加优异。
其他文献
随着互联网技术的飞速发展,企业信息门户(Enterprise Information Portal,EIP)在现代企业管理中扮演着越来越重要的角色,因此有必要去对企业信息门户的成熟度进行综合评价研究。首
<正>真正的朋友,在你获得成功的时候,会为你高兴;在你遇到不幸或悲伤的时候,会给你及时的支持和鼓励;在你有缺点可能犯错误的时候,会给你批评和帮助。我的身边就有许多这样的
期刊
探讨了动态竞争理论和信号分析理论的互补性,回顾了信号分析在竞争反应预测中的应用,借鉴CIP模型和SCP范式提出基于信号分析的SCP分析模型,据此归纳出绩效较好和较差时的信号特
党的十六大提出了振兴东北老工业基地的重大战略决策。十六届三中全会通过的《中共中央关于完善社会主义市场经济体制若干问题的决定》(以下简称《决定》)进一步确立了振兴东