论文部分内容阅读
互联网的迅速发展,使得网上数据不断激增。这些数据缺乏统一的、固定的模式,而且往往是不规则、经常变化的。因此,半结构化数据模型应运而生,它是介于完全结构化数据和无结构化数据之间的一种数据类型。要想对这种半结构化数据进行有效的管理是十分困难的。如何对半结构化数据进行有效的管理成为研究的热点。XML技术的出现,推动了半结构化数据的发展。XML数据是一种自描述的半结构化数据,利用XML文档来管理半结构化数据是一种有效的途径。由于关系数据库在各方面都相对成熟和稳定,因而采用关系数据库对XML数据进行存储和操作,将半结构化转化为结构化的数据,具有重大的理论意义和实用价值。论文的研究从分析半结构化数据和XML相关技术出发,旨在设计一种实现半结构化数据到XML数据的映射算法和一种半结构化数据的存储结构实现XML数据到关系数据库的映射。论文深入探讨了半结构化数据的定义及特点,分析半结构化数据的模式描述形式以及半结构化数据的模式抽取技术,详细介绍了XML和数据库的转换技术。目前最具有代表性的半结构化数据的模式描述形式是OEM模型,它是一种带有嵌套和标记的自描述性有向图。论文采用邻接表表示法实现图的存储,并给出各对象相应的存储结构定义。通过对OEM模型图的遍历,把OEM模型所对应的图结构,转换为相应的XML文档,生成XML数据,实现半结构化数据向XML文档的映射。基于有向图的深度优先遍历思想,给出一个转换算法实现了XML数据的生成。转换得到的XML数据是一种无模式的数据文档,而且XML文档中不存在属性的成分,只有元素成分的存在。基于所生成的XML文档,通过分析XML文档和数据库技术的相互映射方法,采用一种基于前缀编码的模型映射方法,实现XML数掘和数据库的映射。论文最后给出了一个简单的半结构化电子病历数据,实现了半结构化数据向关系数据库的映射转换,并给出了几个典型的XML查询实例。真正的通过XML技术和现有关系数据库技术相联系,实现“以关系数据库为存储手段,以XML技术为交换载体”的数据管理模式。