论文部分内容阅读
图作为一种通用的数据结构可以用来表示各种复杂的数据,被广泛的应用于化学、生物信息、软件工程、社交网络以及互联网等领域中。对于图数据库的管理与传统的数据库有着诸多不同,其中基于图数据库的查询更是有着明显区别。而查询匹配过程中重要的一环工作是子图同构检测,但是同构检测本身是NP问题。为了降低花费在同构检测上的时间消耗,我们可以通过建立有效的索引来减少查询过程中候选图的数量,从而缩短整个查询所需的时间。 大部分的子图查询算法仅考虑在图数据库上进行一次挖掘频繁子图算法,在建立了稳定的数据库索引后,将不再对索引进行更新。这种算法可能遇到的问题是:随着查询兴趣的改变或者数据库的频繁更新,原先的数据库索引将不再能提供有用的信息来有效地减少查询过程中候选图的数量。 针对该问题,本文提出了双索引结构,同时在数据库和查询流上建立索引。算法采用时间窗的概念定义了查询流上的频繁子图,在查询处理的过程中实时地挖掘查询流频繁子图,建立查询流索引作为数据库索引的补充。即使查询兴趣改变,查询流索引也能自适应地更新索引信息来提高查询效率。针对数据库的频繁更新,并不需要在数据库上重新进行频繁子图挖掘来建立新的数据库索引,因为查询流索引已经提供了实时的有用信息。同时,本文也对现有的数据库索引建立算法进行了改进,采用了更高效的基于BFS边扩展的频繁子图挖掘算法建立数据库索引。