论文部分内容阅读
随着Internet和www迅速发展,网络信息资源的动态性、分布性、多元性和无序性等特点,使信息的处理变得越来越困难。大量网络信息资源以半结构化数据的形式存在,如何用可靠的系统来存储和提供有效访问这些数据的需求也在逐步增加。XML数据模型与半结构化数据模型有着很多的相似性,可以说,XML是WWW 上的半结构化数据,它既为半结构化数据的研究提供了广阔的应用前景,同时也推动了半结构化数据研究的发展。为了充分发挥XML的技术特点,基于XML半结构化数据的有效存储和查询成为急需解决的关键问题。由于关系型数据库系统(RDB)具有强大和可靠的数据管理服务、高性能的查询优化,这些方面较其它系统远为成熟和稳定,自然地成为了解决这一问题的重要途径。
大量的研究关注了以关系型后台存储XML文档,提出了不少映射策略和查询转换算法。此外,商用的RDBMS也支持了XML数据存储。然而,现有的XML到关系型映射方法中仍存在着不足之处:关于映射策略的研究就很少提到查询转换,而且目前大量的存储映射方案都是针对特定的应用,很难移植到其它的应用中;如缺少扩展机制,很难重用;缺乏灵活性和一致性,尽管主要的关系数据库也提供了对XML的支持,允许对XML进行存储管理,但是它们都是私有的,映射策略比较固定,文档的分割和查询转换只能用于一个后台数据库。
本文对当前现有的XML数据存储和查询技术进行了深入地研究和探讨,对比分析了各种存储和查询技术的优缺点,适应场合和性能。在此基础上,本文提出了一种基于模式的xml数据映射方案,并据此设计实现了一个独立于后台的RDBMS的原型系统。
该方案对映射策略的选择是通过对输入的XML模式添加模式注释来实现,模式注释的设计集成了多种映射策略,通过添加不同的注释就可以自由组合使用各种不同的映射策略。通过模式注释结合一系列默认检验规则来保证映射的正确性和无损性。此外,方案还给出了显著提高XML数据导入性能的两种方法。
最后,用典型的实验对系统进行了功能与性能方面的测试,效果良好。