论文部分内容阅读
在现实生活中,计算机系统和数据库系统所存储的数据有N^N种形式。对于开发者来说,最耗时间的就是在遍布网络的系统之间交换数据。把数据转换为XML格式存储将大大减少交换数据时的复杂性,并且还可以使得这些数据能被不同的程序读取。XML正在成为一种Internet上的主要的数据表示和交换标准。虽然XML文档很容易表达来自不同源的数据,但是所能表示的语义信息却相对有限。本课题的主要工作是在XML Schema规范的基础上进一步增强定义完整性约束和文档的语义表达能力。采取循序渐进的理论研究方法:首先,通过分析DTD标准和Schema标准的不同之处,并参考关系数据库的完整性以及基于DTD标准的XML文档完整性的相关研究,对基于Schema标准的XML文档的基本数据依赖进行理论研究。为适应XML文档特有的树型结构和半结构化特征,文章采用基于路径的表示方法。其次,参考含有空值的关系数据库的理论,将不完全信息的概念引入到XML文档。创新成果如下:1.给出XML函数依赖的定义及推理规则,并证明其正确性和完备性。提出右部路径单一化、左部路径集闭包和规范覆盖的算法。2.对参与闭包运算的元素类型定义XML键,给出XML键的推理规则,并证明其正确性。提出应用XML键将绝对的XML函数依赖/键和相对的XML函数依赖/键进行转化的算法。3.给出XML多值依赖的形式化定义及推理规则,并证明其正确性和完备性。提出根据模式求多值依赖集、判定最大范围路径、检验多值依赖集是否冗余和规范覆盖的算法。研究相对的XML键和相对的XML多值依赖之间的转换关系,提出解决两种典型XML文档冗余问题的规范化方法。4.将不完全信息引入XML文档,给出严格的多值依赖和松弛的多值依赖的定义,并分别在语义约束的条件下研究其推理规则和覆盖集问题。这里所给出的函数依赖、键和多值依赖,不但可以表示在整个文档中成立的绝对约束,还可以表示在文档的局部成立的相对约束。本课题的现实意义在于:数据依赖从值的角度描述元素类型、属性类型所代表的实体间的关系;提供研究文档规范化、查询优化、结构约束和路径约束等问题的基础;与DTD标准相比,Schema标准能够提供更丰富的数据类型、更强的数据结构定义能力,基于Schema标准的XML文档更适合与数据库之间进行数据传输、转换;将不完全信息引入XML文档,提高它的语义表达能力。