论文部分内容阅读
XML自1998年由W3C提出之后,已经成为因特网上数据表示和数据交换的新标准,受到越来越多的关注。各行各业都在采用XML来描述本领域的信息,随着XML的普及,用户对XML文档查询的要求会越来越高。 虽然XML查询技术已经取得一些研究成果,但由于XML文档自身的特点,以及它与传统数据模型的差异,XML查询技术在理论上和实现上都还存在很多难点。本文对XML查询技术进行深入研究,主要解决以下几个方面的问题:(1)如何使用户在构造XML查询时,无须花费过多的时间去学习复杂的XML查询语言;(2)如何使用户在构造XML查询时,无须明确了解所查XML文档的结构;(3)在保证查询的查全率的同时,如何提高查询的准确度。 本文所做的主要工作有: 1、提出了一种利用DTD的结构信息,将XML文档映射到关系数据库中的方法。在该方法中,不同DTD的XML文档可以保存在相同模式的关系表中,仅需两张表就能存储所有的DTD和XML文档。 2、考虑到XML文档本身的特点,以及XML查询的应用环境和匹配需求,本文提出了一个XML查询方案,该查询方案将查询分为内容查询和结构查询两部分,在实现结构查询功能的同时,把XML文档看作一般的文本文件来处理,从而实现内容查询。 3、在结构查询中,针对XML查询的排序需求,提出了一个适于定量度量查询树和XML文档结构树间的相似度的编辑距离(XQED距离,Editing Distance for XML Querying)计算方法。该方法以查询树为参照物修剪DTD结构树,提取查询比较所需要的有效结构,以该有效结构和查询树的编辑距离作为原DTD和查询树间的XQED距离。该方法充分考虑了XML查询的应用环境和匹配需求,相比现有的距离计算方法,更加适用于XML查询。 4、提出了一种XML查询中查询条件的表示方法XQLBO(XML Query Language Based on Ontology),该方法的提出源于本体和XML本质上的一致性。该方法将查询信息分为结构信息和内容信息,对两种信息单独进行处理,采用这种分治的策略势必会减轻用户创建查询时的难度。由于本体自身内在的特点,比较容易以图形化的方式显示给用户。因此结合本体论构造出的查询语言,减轻了用户的负担,达到了预期的目的。