论文部分内容阅读
XML是一种自描述,可扩展的标记语言,广泛地用于Web环境下数据的表示和共享。要搭建各种基于XML的应用,必须提供处理XML数据的核心技术和工具来高效地生成,查询,过滤,变换XML数据。由于XML有类似树状的结构,所以类似于文件路径那样的路径表达式是XML数据查询和过滤的基础。本文首先研究了用有限自动机来表示XML和XML Schema以及它们之间的关系,然后给出了XML路径表达式的一个代数运算模型,在这个代数模型基础上研究了XML查询语言和过滤语言的核心子语言—路径表达式,它的定义,语法和语义;然后利用有限自动机给出了一个路径表达式的简化方法,最后是它的查询和过滤的有效计算方法,大体上包含以下内容:1)研究了XML的数据模型,它的路径查询语言以及相关的语法和语义它们是有效计算XML查询和过滤的基础。2)以有限自动机为工具,给出了XML,XML Schema,路径表达式的自动机表示形式,以及它们之间的关系。3)研究了在给定XML Schema的情况下路径表达式的简化算法,以及相关的路径表达式的性质,在这个过程中使用了有限自动机方法。正则路径表达式经过这个简化过程以后才能方便,高效地使用SQL/DOM来回答XML查询;把等价的简单正则路径表达式聚成一个等价类可以减少它的计算成本。4)利用关系数据库的存储和查询处理能力来回答XML查询。关系数据库是目前最成熟的数据管理技术,它有优越的可靠性,可扩展性和性能,利用关系数据库来存储和查询XML数据是有效的方法之一。文章给出了一般性的原理和过程,并用一个实验室系统-中国数字图书馆系统工程验证它的有效性和性能。5) XML作为一种数据交换标准,常常用于信息系统之间的数据共享,本文给出了一个简单的方法,在给定XML Schema和关系Database Schema的情况下,如何建立它们之间的对应关系,并给出了一个根据XML查询从关系数据库构造XML文件的方法。6) XML过滤是XML数据处理的另外一个重要的方面,大量的路径过滤表达式经过简化以后转化成一个有限自动机表示,这个有限自动机表示能很好的处理带分支的路径。XML经过SAX分析以后产生一系列的SAX事件驱动有限自动机的执行,试验显示了这个方法的效果。目前在国内,国际上有大量的工作研究XML数据管理技术、XML过滤技术和XML数据模型、查询语言方面的理论。在了解相关工作的基础上,本文主要在以下方面有所创新:1)研究了XML的数据模型,给出了它的路径查询语言以及相关的语法、语义,提出了一种表达能力更强的自动机表示模型,作为有效实现XML查询和过滤的基础。2)提出了基于XML Schema的路径表达式的优化算法。该算法能够在保持语义