论文部分内容阅读
随着知识的爆炸式增加和不同领域知识图谱的推出,面向知识图谱的查询已成为近来搜索引擎领域的研究热点。然而,由于不同领域的知识图谱大多独立存在且所涵盖的知识有限,仅基于单个知识图谱的查询结果已经不能满足用户的查询需求。本文提出面向多个知识图谱的样例查询问题,通过候选结果融合以及相关性衡量方法的改进,在保证时间效率的基础上,提高查询结果的质量以及用户满意度。已有的研究工作大多都是面向单个知识图谱的查询,已有的图查询技术不能应用于多个图上的查询操作,而且已有的相关性衡量方法是基于传统数据图的,没有考虑知识与数据的差异性。针对这些问题,本文主要从以下三个部分开展研究:第一部分,研究面向多个知识图谱的样例查询处理模型。使用用户友好的关键字查询技术,首先结构化用户输入查询关键字作为查询样例。然后,在每个知识图谱上确定用户查询样例,使用子图同构的方法,根据查询样例在每个知识图谱上找到前K个高相关性的子图。最后,选取与查询样例不完全匹配的候选结果进行融合操作。算法通过查询系统集合不同知识图谱,避免了知识图谱的全局模式集成,且更具灵活性。通过实验验证了方法可保证查询效率且具有较高的可用性。第二部分,研究基于知识的查询结果相关性衡量方法。为了进一步确定用户查询意图,在已有的基于距离和结构的样例查询的结果相关性衡量方法基础上,本文加入了知识流行程度作为一个补充的相关性衡量因素。使用事件的发生时间作为衡量知识流行程度的标准,认为越近发生的事情,越是流行的知识。通过实验验证了改进的结果相关性衡量方法有效地提高了查询结果的质量和用户的满意程度。第三部分,研究基于分组标记的候选结果融合算法。面向多个知识图谱的样例查询中,满足查询需求的结果可能来自于单个知识图谱,也可能是多个知识图谱上的候选子结果的融合结果。为了解决候选结果融合时,由于候选结果过多而增加的时间代价问题,本文提出了优化算法,为候选结果按照特征分组标记,从而按组融合,减少了节点匹配代价,缩短了响应时间。通过实验验证本文提出方法可有效地提高查询效率。