论文部分内容阅读
目前,关于知识图谱的查询研究多是基于节点标签的子图匹配。由于节点标签是实体的名称或属性等自身信息,不能体现节点间的语义信息,这导致查询得到的结果语义相关度不高。同时,因为知识图谱多是大规模的数据集,导致存储成本过高。针对上述问题,本文提出了一种基于本体和邻居信息的知识图谱查询算法OAN(Ontology And Neighborhood)。整个查询过程主要从减少图存储空间的压缩技术、提高查询效率的索引技术、提高结果语义相关性查询这三方面展开研究的。首先,本文提出并设计了一种基于双向关系的图压缩技术。压缩的核心思想是通过判断节点间的本体类型是否相同对节点进行划分,同时判断多条边之间是否满足双向关系,若满足,则将这些边进行压缩。通过图压缩,可以将原始图转化成一个更小规模的概要图,节省内存空间。其次,本文提出了一种基于图签名的索引算法。这个索引由两层签名组成,上层是节点的基本信息签名,下层是上层节点对应的邻居信息签名,目标图中所有节点的两层签名构成了整个图的签名索引。通过这个索引能提前移除一些不匹配节点,提高过滤阶段的查询效率。之后,本文在这个索引的基础上提出了一个基于本体和邻居信息的查询算法。在过滤阶段,算法设计了一种同时考虑节点本体信息和图结构信息的相似度度量方法,由此可以提高结果集的语义相关性。在剪枝阶段,提出一种边信息检测方法来去除那些不满足匹配条件的查询节点候选集,并根据最终候选集对目标图剪枝,从而减少了目标图的规模,加快了验证阶段的查询速度。在验证排序阶段,验证候选集中子图是否满足边标签同构,并计算满足要求的结果的总语义相似度,给每个结果打分后进行排序,返回最终相似度高的前k个结果集。最后,在Yago等三个开放数据集上做实验,并且和已有的相关算法进行对比。通过分析实验结果得出,本文所提出的方法无论是在图压缩和索引的优化性能,还是图查询算法的精确度和有效性方面都有所提高。