论文部分内容阅读
随着互联网技术迅猛发展,XML已逐渐成为数据表达和数据交换的标准。越来越多的Web数据通过XML文档形式呈现。如何有效管理这些XML数据,是当前数据库领域一个重要研究课题。XML数据具有半结构化特征,其存储、查询、更新比传统结构化数据更为复杂。使用传统数据库技术解决XML数据管理问题,其效果不佳。为此,需要根据XML数据特点,研究开发新的XML数据管理技术。本文主要研究XML数据管理中的结构查询处理。XML结构查询是XML所特有的一类查询,其查询条件为XML结构约束,以路径表达式形式出现。在XML数据查询中,XML结构查询占有基础地位,许多已知的XML查询语言,如XQuery,XPath等,都以XML结构查询作为其核心部分。因此,高效的XML结构查询处理在XML数据管理中非常重要。本文根据路径表达式的不同,对XML结构查询实行分类处理,从而提高其查询效率。首先,本文提出了一种多分类XML结构查询处理框架MCXArch,具体描述了该框架的两个重要组成部分:查询执行模型MCXEng和查询优化模型MCXOpt。在模型MCXEng中,给出了各类查询执行算子。在模型MCXOpt中,给出了多类结构查询优化规则。接着,本文围绕MCXArch框架,分析研究了四个XML结构查询关键技术点:XML线性路径匹配;XML分支路径匹配;XML结构查询加速和XML包含连接估计。在XML线性路径匹配研究中,本文提出了两种新匹配算法:整数差值匹配法和约简式遍历匹配法。整数差值匹配法用于XML简单线性路径匹配;而约简式遍历匹配法主要用于XML复杂线性路径匹配。这两种匹配算法都通过约简方式,提高查询匹配效率。在XML分支路径匹配研究中,本文给出了两种启发式匹配算法:Heur-PC和Heur-Unnested。算法Heur-PC用于简单分支路径匹配;算法Heur-Unnested用于非自嵌套分支路径匹配。与先前的小枝连接类匹配算法相比,两种启发式算法所需的查询匹配时间更少。在XML结构查询加速研究中,本文提出了一种位图过滤加速法。利用前/后缀标签位图,该方法能加速多类查询匹配算法,如遍历类匹配算法、连接类匹配算法等。本文给出了过滤加速原理,并研究了位图过滤加速法与查询匹配算法的集成。在XML包含连接估计研究中,本文给出了一种权重哈尔小波的估计方法。在预处理阶段,使用哈尔小波,压缩统计数据,生成小波摘要。在查询估计阶段,利用小波系数重构,获取XML包含连接估计值。同时,在估计方法中,使用概率权重模型,体现查询负载变化。在相同的空间限制下,权重哈尔小波估计法比先前的XML包含连接估计法具有更小的估计误差。