论文部分内容阅读
随着现代信息技术的高速发展,数据的结构形式变得越来越复杂。图作为一种一般数据结构,能够对复杂结构的数据以及数据和数据之间存在的相互关系进行建模,这使得图数据管理的应用领域越来越广泛,比如在医药信息学、生物信息学、社会网络、地理信息系统等。图查询作为图数据管理的一个重要研究方向,具有广泛的研究意义,能够帮助人们从大量的复杂数据中快速检索到有价值的信息。作为一门新兴的学科,越来越多的研究人员正在关注数据查询领域。目前,图数据查询基本上都采用“过滤-验证”机制,先对需要查询的数据进行过滤,得到候选集,再对候选集进行精确验证。过滤的目的是为了尽量减少验证的次数,而图的验证主要是进行图的同构测试。众所周知,图的同构测试已被业界证明为是一个NP难题。如何更为有效的获取候选集,降低计算复杂度,提高查询的效率,是一个具有广泛实际意义的研究课题。因此,为了提高查询的效率,研究人员采用在图数据库管理系统中对图数据库建立索引结构。用离线的建立索引的时间和空间消耗,来减少在线的查询执行的时间和空间消耗。本文就图查询过滤阶段如何有效构建索引做了以下工作:首先,本文介绍了图查询的基本概念,图查询的类型,图查询技术的分类以及图数据研究中存在的主要问题,并且详细介绍了几种经典的图查询算法,分析归纳了这些算法的优缺点,为后面的研究工作奠定了一定的理论基础。其次,针对图的精确匹配查询,本文利用频繁子图建立索引,提出了一种新的索引算法,解决了GIndex算法中存在的“冲突”问题。算法首先由频繁子图得到特征集,将特征集组织到DFS树中,并对其进行DFS编码,使特征图序列化,最后利用双哈希函数将其实现存储,建立索引。整个算法解决了编码过程中的“冲突”问题,使得“过滤”阶段效率更高。再次,针对图近似查询问题,本文提出一种新的查询方法。算法采用在图的拓扑结构类型上进行近似查询,对图的拓扑结构进行解构,得到不同尺寸的项集并组织在DAG图中,再由查询图的最小生成树找到最大公共子结构,对其进行扩展,得到满足近似阈值的扩展生成树。然后对得到的扩展生成树进行图的标准编码,将其放入DAG中进行快速索引查询,可得到近似子图和近似超图候选集。该算法通过枚举策略,以空间换取时间,一定程度上提高了查询的效率。最后,本文对提出的算法思想进行了实验验证,并对实验结果进行了对比分析,进一步表明了算法思想的可行性和正确性。