论文部分内容阅读
XML正在迅速成为Internet上信息表示和数据交换的重要标准。由于其强大的数据表达能力,XML完全可以在互联网和数据库之间扮演更加重要的角色。XML是典型的半结构化数据,关系数据库管理系统由于关系模型本身的缺陷,并不适合管理XML数据。现在互联网上存在大量以文件形式存放的XML数据,这些数据包含了丰富的信息,因此如何高效地从XML文档中提取有用的信息是XML文档查询的一个重要研究课题。
众所周知,面向对象的方法具有很强的建模能力,将面向对象的概念引入到XML可以提高XML模式语言的建模能力。而现有的XML数据库管理系统并没有引入面向对象的概念,也就无法实现面向对象XML数据的面向对象特征的查询。为了提高面向对象XML数据的查询速度,索引技术、查询处理和代价估计这三部分是必不可少的。本文结合面向对象的特征提出了两种索引模式,在这两种索引模式中不但提供了简明的结构概要来加快路径信息的查询,还提供了详细的孩子父亲链接关系来提高分支查询的效率。针对不同的索引模式给出了简单路径的查询处理、复杂路径的查询处理和面向对象特征的查询处理方法,由这三种查询处理方法可以完成所有面向对象特征的XML数据的查询处理。针对不同的索引模式提供不同的代价估计方法,值谓词的代价估计使用嵌套的等宽直方图,建立简单、估算准确;基于结构的代价估计使用查询处理过程中所涉及的操作节点数作为估计的代价,这种处理方法估计结果准确、代价估计操作本身所花费的代价较小。
通过不同查询示例的查询测试分析比较这两种索引模式的性能和查询处理的效率。