论文部分内容阅读
资源描述框架(Resource Description Framework,简称RDF)是语义Web网所使用的基本标记语言,在诸多领域中有广泛应用。由于现有的本体抽取、标注方法和测量技术存在误差和噪声,使得不确定RDF数据普遍存在。近年来,对于不确定RDF数据的查询研究逐渐成为热点。由于不确定RDF数据可以建模为不确定RDF图,那么对于不确定RDF数据的关键字查询的研究实际上就是对于不确定图上关键字查询的研究。本文在已有研究的基础上,提出了两种基于r-clique的不确定RDF关键字查询的算法-——SABR和HABR。单词”clique"的中文释义是“极大团、子群体”,这里指不确定图中的子图,字母r是一个表示距离阈值的变量。所以,r-clique是指包含所有查询关键字的任意两个节点的距离不大于给定值r的子图。为了提高查询速度,本文提出了一种多项式时延的近似算法来构建r-clique。算法KSABR (Keyword Search Algorithm Based on r-clique)将不确定RDF数据上的关键字查询问题映射为寻找不确定图上的r-cliques的问题。为了提高查询结果的质量,在KSABR的基础上又进一步提出了精度更高的算法:HABR (Efficient Algorithm Based on r-clique)。 HABR中采用了打分函数对结果进行排序。对于得到的k个结果,HABR算法调用打分函数对结果进行排序,然后将top-k个结果返回给用户。为了进一步提高查询的速度,本文设计了两种索引结构——KI (Keyword Inverted Index)和PI (Probabilistic Inverted Index)。KI中存放的是关键字和节点之间的映射关系,它可以用来实现结构剪枝和概率剪枝。PI中存放的是关键字节点和r-clique之间的映射关系,它可以用来实现打分函数。实验证明,本论文提出的算法KSABR在时间性能上具有较好的性能,而算法HABR在时间性能和结果质量上都具有较好的性能。