基于语义的XML查询及规范化研究

来源 :北京交通大学 | 被引量 : 64次 | 上传用户:kwl9970024
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
摘要:XML在诸多领域中得到了越来越广泛的应用,发展基于XML的成熟完善的数据管理系统,正成为研究者努力的目标。而确立与XML的数据特点相适应的查询方法和规范化机制,是基于XML的数据管理系统走向实用化的基础。为此,我们选取XML查询和XML规范化作为本文的两个主要研究方向。目前,XML查询的研究主要沿着两个方向展开:结构化查询和关键字查询。结构化查询强调查询用例与XML节点在路径上的匹配,导致查询者必须了解所查询XML数据的结构才能给出查询用例,且查询用例极易受到XML结构变化的影响。而关键字查询则只是寻求关键字与XML节点标签的匹配,使得查询结果中必然包含许多不相关的节点,查询的准确性无法保证。在XML规范化的研究方面,目前主要以XML节点的路径信息作为研究的基础。这一方面带来表达式冗长、表达意义不明确、易受到XML结构变化影响等表达性缺陷,另一方面也带来无关节点参与、约束缺失或约束冗余等语义性缺陷,使得我们无法依靠它们对XML中复杂的数据关系进行准确的描述和分析。针对上述的缺陷,本文在开展工作时最大的改进,就是在XML节点的路径信息和标签信息之外,强调对节点语义信息和用户所掌握的常识性信息的充分利用,从而在提高XML查询方法的实用性、效率和准确性,以及表达XML数据依赖关系和消除XML数据冗余方面,取得了显著的突破。具体来讲,我们主要开展了下列的工作:(1)在XML数据模型中引入实体片断的概念,并将XML节点与实体片断相关联,使XML数据模型具备了反映节点语义的能力,从而为开展基于语义的XML查询研究和XML规范化研究奠定了基础。我们对XML文档的数据存储特点进行了重新审视,在对XML节点进行分类的基础上,提出了实体片断的概念,将XML文档看作由一个个实体片断而不仅仅是独立的XML节点所组成的层次结构。进而将XML节点与实体片断关联起来,使它们具备了语义的特性。这正是我们开展基于语义的XML查询研究和XML规范化研究的基础所在。(2)提出了一种基于关键字分组分类表达式的XML查询方法,在用户指明查询关键字语义的情况下,实现查询过程的语义匹配,使XML查询方法在实用性和查询的准确性方面有了很大改进。首先,我们提出了一种新的类关键字XML查询语言——关键字分组分类表达式,使得用户在不了解XML结构、不掌握复杂语法的前提下,可以利用其掌握的常识性信息,赋予查询用例中各关键字以明确的语义;其次,在关键字分组分类表达式中引入多样化的操作符,进一步增强了其语义表达能力;再次,提出了一种新的XML编码方式——C-Dewey编码,对XML节点与实体片断间的关联关系进行了标识;最后,构造FQRI查询算法,实现了查询用例中的关键字与XML节点在语义上的匹配。实验结果表明,FRQI算法能够在保证效率的前提下返回与用户意图高度匹配的查询结果。(3)提出了两阶段XML关键字查询方法,在用户未指明查询关键字语义的条件下,实现查询过程的语义匹配,提高了语义匹配的XML查询方法的适用性。首先,利用XML树中相同标签节点的数量庞大但语义有限这一有利条件,XML节点语义被公式化为节点语义三元组;其次,利用节点语义三元组建立起一种新型XML索引结构——节点语义索引,使得按照语义对XML节点进行检索成为可能;最后,构造TPKQ算法,将XML查询首先在XML节点语义集合中展开,然后再扩展至整个的XML文档,从而实现查询用例中的关键字与XML节点在语义上的匹配。实验表明,TPKQ算法在查询效率和查询精度上较之传统关键字查询算法都有较大改进。(4)提出了一种基于XML节点语义特性的XML规范化方案,改善了XML数据依赖的表达方式,提高了XML范式消除数据冗余的有效性。第一步,提出了XML属性依赖的概念,来表示XML中的数据依赖关系,使XML节点在数据依赖表达式中第一次不以其路径信息,而是以能够反映其语义特性的实体属性的形式来进行标识。第二步,借助于对XML数据依赖表达方式的改进,我们进一步提出了新的XML主键定义和XML范式;第三步,采用“丢失-恢复”的方法,证明了XML范式在消除数据冗余上的有效性。
其他文献
本文提出了一种从画像砖拓印图片估计其画像砖三维浮雕的方法,该方法将浮雕的估计分为低频和高频两部分来估计,恢复的三维模型在视觉上有良好的效果。该研究对于破损、被盗取
近些年来力学计量的使用范围越来越广泛,主要都包括对力的值、质量、振动频率等一些相关的计量测试。力学计量是在早期牛顿力学计量作为基础,以质量为基本的力学。自力学计量
本文重点分析我国公路工程建设质量政府监督的沿革与存在的问题,在此基础上探讨了公路工程政府监督的本质特征与管理行为,同时对国外公路工程建设质量政府监督进行了比较和借
粉干是福建一带的一种传统风味食品,深受广大消费者的喜爱。粉干生产线是对早籼稻进行深加工、转化增值、提高其经济价值和食用品质的有效途径之一。实验表明,米粉料浆在糊化
知识社会学是社会学的一个重要分支学科,它的产生与发展源远流长。20世纪,知识社会学不仅沿着曼海姆的路线发展出了一条以知识的社会决定论研究、知识分子研究、科学社会学研
随着大众传播的快速发展,我国农村传播与城市传播的差距越来越大。改变此现状,需要传媒加大覆盖率,平衡责任与义务;需要政府加快城镇化进程,完善农村信息基础设施建设;需要农
云南大理白族银器历史悠久,品类纷繁,特色突出,是民族银器中的一枝奇葩,它作为白族文化的载体之一,体现的是一种独特的历史文化价值,呈现出大理白族文化多样性和复合化的特征
近年来,网格技术与数字图书馆技术都得到了长足的发展,由于二者在研究目标和研究方向上具有诸多的一致性,因此在数字图书馆的构建与研究中常常引入网格技术。可以说,网格技术
Internet正从一个主要用于信息共享与交换的网络演变成为一种各类资源共享与集成的平台,服务计算正是顺应这一趋势而发展起来的计算风范。在服务计算应用开发模式下,Web服务
齿轮钢是汽车材料中用量较大,要求较高的关键材料之一,其不仅影响车辆使用寿命,能耗等,而且对满足使用安全也至关重要。随着汽车轻量化的发展,对齿轮钢的质量要求也更为严格。为了