论文部分内容阅读
近年来,随着互连网的迅猛发展,XML(eXtensibleMarkupLanguage)已经成为数据交换事实上的标准,这也使得我们对XML文档存储有了新的理念——XML数据库,并且随着对XML查询的要求越来越多,在XML数据库上进行查询成为目前XML技术研究领域的重要组成部分。在XML模式的研究方面,W3C于2001年5月正式推荐XMLSchema为XML模式的标准,并且越来越多的企业和组织都开始支持该标准,如何利用XMLSchema的信息正在成为一个新的研究热点。
由于XMLSchema用于定义XML文档的结构,因此XMLSchema拥有XML文档结构的大量信息,在对XMLSchema和XPath的相关文献进行研究之后,本文提出了使用XMLSchema对XPath表达式进行初步检验的方法,该方法的优越性在于仅使用XMLSchema而不用存取XML文档数据就可实现对XPath表达式的初步检验。本文提出了实现该方法的基本算法,并对算法进行了实验,实验证明算法的性能非常好。
利用统计信息优化数据库查询,是提高查询效率的重要方法之一,由于XML数据自身的特点,传统数据库统计信息的收集和计算方法不适用于XML数据库,所以要根据XML数据的结构特点构造适用的统计信息。本文对近期关于XML数据库统计信息研究的相关成果进行了综述,包括统计信息的构造方法和模型等,并提出了一种统计信息的通用框架,该框架结构主要包括两个部分的统计信息,一部分是针对祖先/后裔关系,另一部分是针对父/子关系,特别是对于父/子关系的统计信息,本文提出一种父点模型方法,如果以该模型结构构造统计信息,运用该统计信息对父/子关系的连接结果集进行估计,其结果比较能反映真实情况。本文针对父点模型方法,提出了构造该模型统计信息的算法,并对该算法进行了实验,通过对实验结果进行性能分析,证明该模型方法可以达到要求。