论文部分内容阅读
随着Internet的普及,XML逐渐成为了信息交换和编码的主流格式和事实标准。而传统的关系数据库查询算法对于具有半结构特性的XML已不再适用。因此,如何快速的在XML数据集中找到所有感兴趣的信息,已成为当前研究的热点。小枝模式查询是XML查询处理的核心操作,对于提高查询效率有重要意义,近年来受到国内外学者的广泛研究和关注。
过去几年,学术界相继有人提出了TwigStack、TJFast以及TwigStackList等算法,但这些算法针对只有祖先后代关系且输出所有结点的查询时,其效率较高,而在处理带有父子关系或者只有少数输出结点的查询时,效率却不尽如人意。
针对以上问题,本文主要做了以下几个方面的工作:
(1)提出了一种扩展编码方法,使得XML结点之间的关系非常容易判断;
(2)提出了一种改进的twig查询算法cTwigStack,它采用了扩展的区域编码,能够处理带有祖先后代关系、父子关系的查询。实验所产生的中间结果可以在处理祖先后代结点时性能达到最优,而且在处理父子结点时,相对目前提出的算法也是非常高效的;
(3)通过将cTwigStack算法与经典的小枝模式查询算法TwigStack算法和TwigStackList算法进行对比,可明显看出本文算法的优越性。