基于r-clique的不确定RDF关键字查询研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:blus95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
资源描述框架(Resource Description Framework,简称RDF)是语义Web网所使用的基本标记语言,在诸多领域中有广泛应用。由于现有的本体抽取、标注方法和测量技术存在误差和噪声,使得不确定RDF数据普遍存在。近年来,对于不确定RDF数据的查询研究逐渐成为热点。由于不确定RDF数据可以建模为不确定RDF图,那么对于不确定RDF数据的关键字查询的研究实际上就是对于不确定图上关键字查询的研究。本文在已有研究的基础上,提出了两种基于r-clique的不确定RDF关键字查询的算法-——SABR和HABR。单词”clique"的中文释义是“极大团、子群体”,这里指不确定图中的子图,字母r是一个表示距离阈值的变量。所以,r-clique是指包含所有查询关键字的任意两个节点的距离不大于给定值r的子图。为了提高查询速度,本文提出了一种多项式时延的近似算法来构建r-clique。算法KSABR (Keyword Search Algorithm Based on r-clique)将不确定RDF数据上的关键字查询问题映射为寻找不确定图上的r-cliques的问题。为了提高查询结果的质量,在KSABR的基础上又进一步提出了精度更高的算法:HABR (Efficient Algorithm Based on r-clique)。 HABR中采用了打分函数对结果进行排序。对于得到的k个结果,HABR算法调用打分函数对结果进行排序,然后将top-k个结果返回给用户。为了进一步提高查询的速度,本文设计了两种索引结构——KI (Keyword Inverted Index)和PI (Probabilistic Inverted Index)。KI中存放的是关键字和节点之间的映射关系,它可以用来实现结构剪枝和概率剪枝。PI中存放的是关键字节点和r-clique之间的映射关系,它可以用来实现打分函数。实验证明,本论文提出的算法KSABR在时间性能上具有较好的性能,而算法HABR在时间性能和结果质量上都具有较好的性能。
其他文献
随着数字技术和因特网的发展,各种形式的多媒体数字作品(图像、视频、音频)纷纷在网络上传输或发表。数字作品的便利性和不安全性是并存的,它可以低成本、高速度地被复制和传播
软件开发是一种艺术、工艺、科学和工程。人们在设想、确定以及创建软件时,身边的环境不断在变更。敏捷是为了在动荡的业务环境中获益而创造变革和响应变革的能力。本论文主要
自第一个使用鸟枪法成功地完成流感嗜血杆菌完整的基因组测序以来,基因组被完全测序的物种数量每年都在飞速增长。当两个非常相近物种的完整基因组可以获得的时候,首要的问题
本文首先从IPv4的地址枯竭、路由选择效率不高、缺乏QoS保证等局限性以及IPv6提供QoS支持的技术优势,来分析IPv6 QoS机制。在此基础上详细分析了当前使用的实时传输与控制协
随着计算机技术的快速发展,在人们的工作生活中,专家系统得到了越来越广泛的应用。通过使用专家系统,可以节约大量的人力资源,可以加快信息流通的速度,在许多领域里,专家系统都得到
原有的交警支队电子警察处罚系统主要由支队的交通处、宣传处、科研处等部门使用,而各区队不具有数据采集、违法认定、违法处罚、查询、统计等功能,同时历经2004年5月新交通法
纹理是在计算机图形学中一种普遍存在的视觉现象。纹理通常用来描述自然界中具有重复性的现象,如机房中的噪声,物体移动,物体表面细节特征以及人类的活动等等。计算机图形学
图像识别是计算机视觉领域的研究热点之一。如何从大规模的高维度视觉数据中获取有效的视觉表征,并且实现视觉信息的高精度、鲁棒、快速识别,已成为图像识别研究领域所面临的、
以往只能由超级计算机完成的计算任务如今越来越多的通过Internet进行了。安全的分布式计算越来越多的成为Internet上应用的需求。本文首先总结了安全分布式计算协议的几个安
随着云计算技术的日益成熟,云服务系统已经成为了一种重要的软件开发模式。在云服务系统应用中,组件服务被部署在不同的服务器或者服务器集群中。由于用户访问行为的不确定性