一种基于哈希的RDF存储与查询系统及其应用研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:robinlaikankan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的十几年中,RDF(资源描述框架)作为一种广泛使用的万维网标准数据格式,数据量急剧增长,许多开放关联数据集的三元组个数已达数千亿。因此,如何有效地管理海量的RDF数据已成为一项巨大的挑战。现有gStore、MonetDB和RDF-3X等系统都支持RDF存储和SPARQL查询,但是过多的比较操作和高碰撞率已经成为RDF数据管理系统中的致命弱点。针对以上问题,本文提出了一种基于哈希索引的系统——HTStore,用于快速存储和查询大规模的RDF数据。首先,HTStore利用哈希结构缩短查询时间,提高查询效率。其索引结构包含两个部分:包含哈希表的表层和包含哈希树的树层,所提出的哈希树结构可以很好地适应数据量的变化。另外,为了确保内存和磁盘之间的高效数据交换,本文提出了利用有效的修剪规则和哈希树索引构建的高效搜索算法。并且,本文还提出了改进的计数布隆过滤器,以便在访问整个数据集之前预先确定数据集中是否存在三元组,以减少访问磁盘的数量,进一步提高查询性能。此外,本文将HTStore系统应用于生物医学数据中,将基因、药物和疾病等多个数据集联合起来构成一个多源的RDF数据集,并用HTStore实现存储和查询。最后,本文设计实验验证了RDF存储和SPARQL查询的效率和有效性。实验结果表明,与QLserver、TripleBit、gStore和MonetDB这些代表性的RDF数据管理系统相比,该系统可以将查询效率平均提高22%,更新操作的执行时间平均可减少25%。在生物医学数据中,实现了基因、药物和疾病之间的查询,具有一定的实用性。
其他文献
目的比较海藻酸钠微球联合碘化油与明胶海绵颗粒联合碘化油经皮肝动脉化疗栓塞治疗原发性肝癌的远期疗效。方法回顾性分析2017年1月至2018年2月在空军军医大学西京医院、空军
数控机床和大型机床中,有时为了在变速范围内,满足一定恒功率和恒转矩的要求,或为了进一步扩大变速范围,常在无级变速器后面串接机械分级变速装置。同时主轴组件要有足够高的
在高清概念日渐深入人心的今天,作为央视的合作伙伴,松下推出了六款等离子电视和四款液晶电视新品,形成了强大的高清电视矩阵,充分展现了自己的实力。
在写作中,作文立意的好坏直接关系到作文的成败。任务型材料作文作为一种新的高考写作形式,近年越来越受青睐,如何才能指导学生为这种新型写作立意,是每一个语文老师所要认真
早上推開教室门,我愣住了:桌子呢?隔壁班的老师告诉我,昨天放学后因为有教研活动,借走了教室里所有的桌子。我环顾四周,小椅子三三两两地靠着墙壁、角落,没有桌子的教室显得那么宽敞。我随手放上一段音乐,心情也舒畅了起来。  孩子们陆陆续续地来了。他们先是露出惊奇的眼光,可一会儿就适应了这种环境。他们很自然地做起了自己的事,有的坐在靠墙的椅子上静静地看着书,有的在建构区轻声交流着自己的想法,有的在柜子边折
【案例一】在公开活动“认识野兽”快结束时,教师A总结出野兽的三个特征:有皮毛、有尾巴、会生小宝宝。然后,教师A请幼儿说说还认识哪些野兽。幼儿争先恐后地说着老虎、狮子、野
世界卫生组织已将室内空气污染列为全世界八大危害人类健康的因素之一。由于污染物种类和来源的多样性、作用于人体的长期性、累积性等特点。随着社会发展,人们要求高品位高质量生活,越来越多的室内装修采用绿色环保材料。这些环保材料不再含有或含量较低的国家标准中规定的污染物,但会出现新的污染物。因此,急需筛查新的污染物和建立相应的检测方法。本论文针对目前实际现状,以及检测的灵敏度和准确度差的问题,发展了集气体吸
将苯胺单体引入太西无烟煤的微纳米孔隙及芳香层片中,原位聚合制备出太西无烟煤/聚苯胺复合材料,其电导率稳定在101 S·m-1数量级.分别用SEM和FTIR对其微观形态和化学结
UMA技术即多模终端在Wi—Fi接入点覆盖的区域里可以通过宽带IP网络连接到移动网络上,以较低的资费获得语音和数据业务,它是实现移动、固定网络融合的技术之一。
欢送会    2004年3月5日  有两位孩子要离开幼儿园了,一个回澳大利亚,另一个孩子随父母迁居上海。老师提前制作了特别的纪念册。每个小朋友在上面画了一幅画。由老师帮助在旁边写下他们想说的话。孩子们的话单纯又有趣,我摘录下几句:我会怀念你的;我喜欢和你在操场上玩:我喜欢和你玩宾果游戏;圣诞节快乐;你是蜘蛛侠;我爱你;Peter先生,再见!纪念册完成以后,老师将孩子们的每一句留言读给他们听,当他们