论文部分内容阅读
XML作为网络数据交换和表示的一种标准,越来越受到人们的青睐,然而,随着在网络上发布的XML数据的不断增加,如何管理XML,文档已经成了一个十分棘手的问题。目前的研究侧重于用关系数据库来存储XML文档,用关系数据库对XML文档进行存储不但可以充分利用现有关系数据库的丰富资源和管理经验,而且对XML也有一定的支持,可以利用XML的优点发展Internet应用,但是由于XML数据和关系型数据在组织上的差异,对于到关系数据库的存储过程中存在的XML文档多值元素、递归元素以及混合内容元素的映射等难点问题一直没有得到有效的解决,主要表现为丢失有用信息、查询效率低、映射方法不灵活等,而且转换过程本身也会增加系统开销影响数据库的效率,增加复杂性。此外,由于不同厂商生产的关系数据库是异质的,这也增加了开发基于XML的Intemet应用的难度。不但如此,现存的方法大多数以DTD来定义XM[。文档的模式,由于DTD缺乏对文档结构、属性、数据类型等约束的足够描述, 而且有着与XML格式完全不同的格式,因此采用DTD作为模式的映射方法不易实现XML文档的自动化存储和查询。W3C于2001年5月正式推荐XML Schema为XML的标准模式,XML Schema的格式与XML的格式完全相同,而且提供了更多的内建数据类型,并支持用户对数据类型的扩展,基本上满足了关系模式在数据描述上的需要,XMLSchema比DTD更适合描述关系数据,具有更强的表现力,能够更好的满足不同领域应用的需求。同时XML Schema.内容模型的开放性,可以随意扩大、更新,具有很大的灵活性和可扩展性,XML Schema对命名空间的支持,保证了标记的唯一性。 本文根据W3C最新提出的XML Schema规范,提出了一种等价于XML Schema的数据模型F Schema,并实现了从F Schema到关系模式的映射算法和XML 文档到关系数据库的加载算法。实验证明,在XML 文档的模式信息比较稳定的情况下,F.Schema.映射方法在数据转储过程中的信息保持、映射后的查询更新操作及XML加载到数据库的操作复杂性方面均要优于文本、Xparent和DTD等方法。由于F Schema模型的简单性和结构一致性,根据本文的思想,F Schema方法能够实现基于关系的XML 文档存储和查询的自动化。