论文部分内容阅读
摘要:XML在诸多领域中得到了越来越广泛的应用,发展基于XML的成熟完善的数据管理系统,正成为研究者努力的目标。而确立与XML的数据特点相适应的查询方法和规范化机制,是基于XML的数据管理系统走向实用化的基础。为此,我们选取XML查询和XML规范化作为本文的两个主要研究方向。目前,XML查询的研究主要沿着两个方向展开:结构化查询和关键字查询。结构化查询强调查询用例与XML节点在路径上的匹配,导致查询者必须了解所查询XML数据的结构才能给出查询用例,且查询用例极易受到XML结构变化的影响。而关键字查询则只是寻求关键字与XML节点标签的匹配,使得查询结果中必然包含许多不相关的节点,查询的准确性无法保证。在XML规范化的研究方面,目前主要以XML节点的路径信息作为研究的基础。这一方面带来表达式冗长、表达意义不明确、易受到XML结构变化影响等表达性缺陷,另一方面也带来无关节点参与、约束缺失或约束冗余等语义性缺陷,使得我们无法依靠它们对XML中复杂的数据关系进行准确的描述和分析。针对上述的缺陷,本文在开展工作时最大的改进,就是在XML节点的路径信息和标签信息之外,强调对节点语义信息和用户所掌握的常识性信息的充分利用,从而在提高XML查询方法的实用性、效率和准确性,以及表达XML数据依赖关系和消除XML数据冗余方面,取得了显著的突破。具体来讲,我们主要开展了下列的工作:(1)在XML数据模型中引入实体片断的概念,并将XML节点与实体片断相关联,使XML数据模型具备了反映节点语义的能力,从而为开展基于语义的XML查询研究和XML规范化研究奠定了基础。我们对XML文档的数据存储特点进行了重新审视,在对XML节点进行分类的基础上,提出了实体片断的概念,将XML文档看作由一个个实体片断而不仅仅是独立的XML节点所组成的层次结构。进而将XML节点与实体片断关联起来,使它们具备了语义的特性。这正是我们开展基于语义的XML查询研究和XML规范化研究的基础所在。(2)提出了一种基于关键字分组分类表达式的XML查询方法,在用户指明查询关键字语义的情况下,实现查询过程的语义匹配,使XML查询方法在实用性和查询的准确性方面有了很大改进。首先,我们提出了一种新的类关键字XML查询语言——关键字分组分类表达式,使得用户在不了解XML结构、不掌握复杂语法的前提下,可以利用其掌握的常识性信息,赋予查询用例中各关键字以明确的语义;其次,在关键字分组分类表达式中引入多样化的操作符,进一步增强了其语义表达能力;再次,提出了一种新的XML编码方式——C-Dewey编码,对XML节点与实体片断间的关联关系进行了标识;最后,构造FQRI查询算法,实现了查询用例中的关键字与XML节点在语义上的匹配。实验结果表明,FRQI算法能够在保证效率的前提下返回与用户意图高度匹配的查询结果。(3)提出了两阶段XML关键字查询方法,在用户未指明查询关键字语义的条件下,实现查询过程的语义匹配,提高了语义匹配的XML查询方法的适用性。首先,利用XML树中相同标签节点的数量庞大但语义有限这一有利条件,XML节点语义被公式化为节点语义三元组;其次,利用节点语义三元组建立起一种新型XML索引结构——节点语义索引,使得按照语义对XML节点进行检索成为可能;最后,构造TPKQ算法,将XML查询首先在XML节点语义集合中展开,然后再扩展至整个的XML文档,从而实现查询用例中的关键字与XML节点在语义上的匹配。实验表明,TPKQ算法在查询效率和查询精度上较之传统关键字查询算法都有较大改进。(4)提出了一种基于XML节点语义特性的XML规范化方案,改善了XML数据依赖的表达方式,提高了XML范式消除数据冗余的有效性。第一步,提出了XML属性依赖的概念,来表示XML中的数据依赖关系,使XML节点在数据依赖表达式中第一次不以其路径信息,而是以能够反映其语义特性的实体属性的形式来进行标识。第二步,借助于对XML数据依赖表达方式的改进,我们进一步提出了新的XML主键定义和XML范式;第三步,采用“丢失-恢复”的方法,证明了XML范式在消除数据冗余上的有效性。