基于领域本体的大规模RDF数据分布式存储研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zp283106190
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术和语义本体技术的飞速发展,领域RDF数据的规模也不断扩大。如今,领域知识图谱普遍由超过百亿数量级规模的RDF数据构建而成,如阿里巴巴的核心商品知识图谱、大英博物馆的馆藏珍品知识图谱等,合理地存储和查询这些基于领域本体的RDF数据是当下研究的重点。对于大规模RDF数据集的存储,基于关系型数据库的方法扩展性较差且不能良好地利用分布式特性,而现有的一些分布式存储方案虽然提升了查询效率但也占用了更多的存储空间,且不能利用领域本体数据的语义进行查询和推理。鉴于现有领域本体的RDF数据存储查询方案的不足,本文首先设计并实现了一种基于HBase的领域RDF数据分布式存储方案;然后针对该存储方案提出了基于Hive的查询方案;最后通过实验,验证所提方案的可行性和效果。具体而言,本文进行了以下研究:(1)设计并实现基于HBase的领域RDF数据分布式存储方案。本方案首先解析领域本体,将类之间的关系存储在HBase表,借助该表可进行领域本体推理查询从而提升查全率;然后结合标准测试集中SPARQL查询语句的特点,设计HBase中的RDF数据存储表,设计出的存储表可降低自连接次数从而提升查询速度。此外,在存储方案中为每个HFile增加过滤器,加速了查询时数据的读取。(2)针对提出的RDF数据分布式存储方案,设计基于Hive的查询方案。查询方案主要包括制定SPARQL操作符代数转换规则、构建唯一主体映射表并用类关系表补全、建立Hive视图、构建并优化查询的抽象语法树、生成HiveQL并由MapReduce作业执行查询。本查询方案实现了SPARQL-HiveQL转换从而具有可扩展性和容错性,并在查询中引入本体推理,语法树的优化也使查询效率得到提升。(3)实现提出的存储、查询方案并设计实验验证方案的效果。本文设置了多种规模的基准测试集来对测试数据的加载时间、查询语句的查询时间以及查全率等指标进行测试,验证了所提出的结合本体推理的存储、查询方案在分布式环境下有良好性能。
其他文献
在信息化时代下,数据的安全性一直是人们关注的焦点。作为公钥密码学的重要原语之一,数字签名可以为网络通信提供安全且高效的认证方案,确保数据在通信过程中以不可篡改和不可否认的方式进行传输。随着数字签名研究的不断深入,基于不同密码体制的数字签名方案相继被提出。无证书数字签名(Certificateless Signature,CLS)的引入不仅避免了传统基于公钥基础设施的数字签名(Public Key
机器人技术反映着一个国家的科学技术水平,是当代最具有重要战略意义的产业之一,而随着机器人技术的发展,其应用场景越来越复杂多变,传统的固定作业机器人无法满足生产要求,机器人要求被赋予更灵活快速的应激能力和更智能的行为。机器人运动技能的获取与泛化就是赋予机器人智能的一种重要方法,而基于示范学习加强化学习的框架(LfDRL)的运动技能获取方法,应用最为成功,本文基于策略表示、模仿学习和优化的三段范式Lf
短波接收机因其具有极长的通信距离而被广泛的应用于海事通信、抗震救灾及航空电台等领域。但是随着现代微波射频技术的发展,电磁环境的不断恶化,短波频段划分、利用更加细致
云数据中心作为云计算业务的核心基础设施,利用虚拟化技术整合物理服务器集群系统资源,能够高效管理云环境中的资源和应用。云计算服务业务量地不断拓展,云平台规模扩张造成
继父母与继子女间的关系是基于继父(母)与生父(母)的再婚事实而产生的,这种关系和生父母子女之间的关系不一样,其彼此之间并不是以血缘关系为纽带的。继父母子女关系逐渐成为了当今中国家庭中一种常见的家庭关系,继父母对继子女监护权问题引起的纠纷也日渐增多。虽然我国现行法律对于继父母子女关系有所涉及,但是规定的内容太过原则和简单,只通过部分原则性条款加以规定,无法针对性地解决司法实践中纷繁复杂的继父母子女关
我国的探望权制度仅仅规定了离婚后没有直接抚养子女的父亲或母亲享有探望子女的权利,对祖父母的探望权则并未涉及。而近年来司法实践中祖父母要求行使探望权的案件越来越多,司法裁判也并不统一,争议较大。通过对祖父母探望权案例的检索与比较,选择了丁某、王某与白某探望权纠纷案,张某、陈某与王某探望权纠纷案以及艾某、魏某与彭某探望权纠纷案三个样本案例。通过对三个样本案例的分析比较,祖父母探望权的问题主要集中在祖父
移动无线自组织网络(Mobile Ad Hoc Network,MANET)是一种分布式网络,具有去中心化、无基础设施、自适应组网、动态拓扑等特性,被广泛应用于无人机集群、移动传感网络等领域。
随着工业4.0概念的提出,利用信息化技术促进产业变革,打造智能化工厂成为各国工业大力发展的方向。因此,对工业现场设备的运行状态、生产环节的监控,继而通过数据分析的手段
随着互联网技术的快速发展和共享经济理念的深入人心,着眼于实现资源整合共享和集成化管理的物流平台、供应链平台等应运而生,并逐步形成了以平台为核心的供应链体系。平台型
近年来,随着新能源技术、电动汽车以及多电飞机等领域的飞速发展,电力电子装置逐渐向高频、高效以及大容量方向发展。Si IGBT受材料的物理特性限制,其开关频率越来越难以满足