基于本体和邻居信息的知识图谱查询算法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:liusheng123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,关于知识图谱的查询研究多是基于节点标签的子图匹配。由于节点标签是实体的名称或属性等自身信息,不能体现节点间的语义信息,这导致查询得到的结果语义相关度不高。同时,因为知识图谱多是大规模的数据集,导致存储成本过高。针对上述问题,本文提出了一种基于本体和邻居信息的知识图谱查询算法OAN(Ontology And Neighborhood)。整个查询过程主要从减少图存储空间的压缩技术、提高查询效率的索引技术、提高结果语义相关性查询这三方面展开研究的。首先,本文提出并设计了一种基于双向关系的图压缩技术。压缩的核心思想是通过判断节点间的本体类型是否相同对节点进行划分,同时判断多条边之间是否满足双向关系,若满足,则将这些边进行压缩。通过图压缩,可以将原始图转化成一个更小规模的概要图,节省内存空间。其次,本文提出了一种基于图签名的索引算法。这个索引由两层签名组成,上层是节点的基本信息签名,下层是上层节点对应的邻居信息签名,目标图中所有节点的两层签名构成了整个图的签名索引。通过这个索引能提前移除一些不匹配节点,提高过滤阶段的查询效率。之后,本文在这个索引的基础上提出了一个基于本体和邻居信息的查询算法。在过滤阶段,算法设计了一种同时考虑节点本体信息和图结构信息的相似度度量方法,由此可以提高结果集的语义相关性。在剪枝阶段,提出一种边信息检测方法来去除那些不满足匹配条件的查询节点候选集,并根据最终候选集对目标图剪枝,从而减少了目标图的规模,加快了验证阶段的查询速度。在验证排序阶段,验证候选集中子图是否满足边标签同构,并计算满足要求的结果的总语义相似度,给每个结果打分后进行排序,返回最终相似度高的前k个结果集。最后,在Yago等三个开放数据集上做实验,并且和已有的相关算法进行对比。通过分析实验结果得出,本文所提出的方法无论是在图压缩和索引的优化性能,还是图查询算法的精确度和有效性方面都有所提高。
其他文献
在世界经济复苏乏力的背景下,中国向亚欧非国家发出了共建"一带一路",推进基础设施联通的倡议。文章利用1991~2016年"一带一路"沿线国家经验数据,采用静态和动态计量经济学方
在愈发多样化的工作环境中,口音已成为译员几乎无法避免的关卡。本文旨在找到应对同声传译中以印度口音为主的一系列干扰因素的有效策略。本文实验包含两次实践。第一次实践
随着信息时代的发展,我国图书馆发生日新月异的变化,作为图书馆进行数据发布和提供信息服务的重要技术之一的关联数据越来越受到大家的关注。这些年,国内外学者针对关联数据
针对常见的基于探针气体吸附等温线的孔隙表征方法,通过选择3件标准样品(介孔和微孔材料以及纳米碳管),对比分析了BJH法、HK法和QSDFT法的结果。研究发现BJH法和HK法分别仅适用
<正>~~
会议
“有”字句形式多样、表义丰富,是汉语中的一个重要句式,也是留学生使用的高频句式,具有一定的难度。但是,“有”字句在对外汉语教学领域的研究成果并不丰富,现有研究大多基
<正>一由于各国文化背景和国情、法制不一,国外商会协会的体制各有特点,根据其法律特征(Legal characteristic)大体可以分成大陆模式(Continental model)、盎格鲁撒克逊模式(
会议
2019年一季度,全国工业产能利用率为75.9%,比上年同期下降0.6个百分点。分三大门类看,一季度,采矿业产能利用率为73.1%,与上年同期持平;制造业产能利用率为76.3%,比上年同期
随着“全民健身”战略的提出,高校羽毛球运动作为群众羽毛球运动的推动者,其运动发展现状把握以及对未来发展趋向已成为当下的研究热点。方法:通过从文献计量学(cite space软
研究编队条件下同频假目标干扰及对策。首先分析假目标干扰在空域、频域上的能量干扰机理,以声纳方程为基础,建立了统一的干扰方程。以典型的小型编组为例,分析了各种类型的