论文部分内容阅读
随着Web应用的不断扩展,基于HTML的Web信息表达方式已经不能适应人们进行信息查询和对Web数据进行管理的需要。XML以其开放性,自描述性,以及平台无关性等优点,成为网络上数据表示和交换的标准。随着XML数据的日益增多,各种类型的数据库管理方法不断出现。比较有代表性的有XML专用数据库、面向对象数据库,关系数据库等。其中,关系数据库技术最为成熟,应用也最广泛,所以把XML数据放到关系数据库中进行管理,是当前及今后很长一段时间内非常有效的手段。 鉴于XML模式和关系模式的异构性,要把XML数据存储到关系数据库,首先要进行模式的映射。XML到关系的模式映射方法可以分为以下三大类。一类方法是直接将XML文档建模,然后将模型转换为关系模式。第二种方法是基于XML模式信息如DTD,XMLSchema等,经过预处理后,使用一定的算法建立对应的关系模式。第三类方法则是基于代价的,即考虑查询负载,从而生成一个优化的关系模式。 本文主要采用了第一种方法的研究思路,原因是该方法更具有一般性,适合于所有的XML文档的存储,并且在查询性能上可以有相当不错的表现。更为重要的是,该方法提供了后两种方法实现不了的文档“无损映射”,即将文档存储到数据库以后,还能够按照文档原来顺序进行恢复。这种方法在许多文档内容管理上相当有效。 本文主要在以下几个方面进行了研究: (1)提出了一种基于节点的对象交换模型(NOEM),可以完整的对XML文档数据进行建模,并具有较好的扩展性能;(2)提出一种新的编码方案:层次-兄弟编码(hierarchy-siblingencoding),使之既能完整的保存文档的顺序信息,又能够较好的支持XPath查询;(3)设计了四元关系模式:元素关系,属性关系,值关系和路径关系,使得该方法具有更好的通用性 实验结果表明,该编码方案可以无损的将XML数据保存到关系数据库中,并且使得XML数据的查询和重构效率较优。