不确定图数据TOP-K查询算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:linyi870821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,图数据模型广泛应用于生物信息、计算化学、语义网等领域。现有的图数据查询处理技术大多基于频繁子图,是一个过滤、验证过程,即首先通过挖掘出来的频繁子图构造索引,然后根据索引产生侯选集,最后对侯选集中的每一个图进行子图同构验证,最终获取结果集。在这类算法中,索引构造时的参数选择策略影响查询图侯选集的大小,同时验证阶段需要对每一个侯选图进行子图同构测试,没有利用图之间的差异性。   本文针对确定图的子图同构查询,定义了图数据相似度,根据相似度构造索引,进行图数据的查询处理。相似度基于图之间的子图映射关系,是两个图之间最大公共子图的集合。相似度索引基于倒排索引,通过计算任意图与其它图之间的相似度构造成相似度集合。与基于频繁子图索引的查询流程不同,基于相似度索引的图数据查询处理是一个迭代收敛过程,首先从数据库中按照对查询图的搜索空间大小选择一个候选图,然后计算查询图与侯选图的最大匹配图,如果侯选图包含查询图,则根据相似度索引输出查询结果集;否则,根据最大匹配图过滤图数据库并重复以上过程。   本文针对不确定图数据TOP-K包含查询问题,将概率上界信息集成到确定图数据库频繁子图索引和相似度索引中,提出了不确定图数据库索引结构。通过比较概率上界与中间结果集优先队列中的概率值,减少子图匹配计算次数,提高TOP-K查询效率。   实验结果表明,与频繁子图索引相比,本文提出的基于相似度索引的查询方法,对于确定图查询和不确定图TOP-K查询问题,极大减少了子图同构次数,具有更高的查询性能。
其他文献
当面对复杂多变的环境和陌生的任务时,即使是功能非常强大的计算机系统(如计算机网络、机群等),其表现也不能令人满意。一个重要的原因是,不同的任务要求系统具有不同的功能,
随着多年来虚拟化技术的不断发展,云计算逐渐普及,现代1T企业的工程师们不再满足于仅通过虚拟化技术来获取具有计算能力的虚拟机节点,而开始逐步将目光投向更加理想的应用开
近年来,随着我国车辆的增加,高速公路给人们带来许多方便,但同时也引发了许多新问题,超速,超载等违章现象以及汽车犯罪现象等加剧,伤亡事故不断发生。而且高速公路上一旦发生
随着游戏、仿真等图形技术的不断发展,以及工业设计、模拟仿真、三维影视等对三维复杂物体模型应用需求的不断增加,关于三维模型重建的相关研究越来越受到人们的重视。而由于
随着互联网的迅猛普及,网络在人们生活中所占的比重也越来越大,网络中出现大量与XML数据流有关的应用,比如网络日志、股票分析、互联网监控、数据安全管理、位置信息、电子信息
随着互联网技术的快速发展,搜索引擎技术随之诞生。人们总是希望通过搜索引擎找到最相关、最权威的网页,而搜索引擎网页排序算法的好坏直接关系到用户能否找到这样的网页。所
面对当今社会信息系统安全需求的日益增长,已不可能单纯地靠技术手段从根本上解决信息系统的安全问题,更应该从系统工程的角度来看待信息系统的安全问题。风险评估是信息系统
随着互联网的高速发展,众多企业和个人已经把大量数据交给第三方服务器存储,如何保证私有数据的机密性和隐私成为急需解决的问题。加密技术是保护数据机密性和隐私的一种较为
社会经济的不断发展推动着人口大规模地向城市地区聚拢,导致交通越来越拥堵。交通拥堵已成为困扰交通领域的一个难题。大范围的车辆检测识别能及时的获取交通信息,改善交通安全
随着信息时代的发展,实时嵌入式系统已经不仅仅应用于工业自动化控制,而是更广泛的应用于多媒体通信、突发事件处理、环境监测、交通控制以及航空航天等领域。传统微内核结构