论文部分内容阅读
互联网中蕴藏着丰富的信息,如何从浩如烟海的网络信息中快速、有效地查找用户需要的信息一直是网络应用的一个难题。网络信息有相当部分是基于Web的半结构化(semi-structured)数据。半结构化数据的内容与结构相关联,没有统一的结构。随着Web信息的不断膨胀,单纯靠字符串匹配方式从Web中获取用户需要的信息越来越困难。XML是一种半结构化数据描述语言,它克服了传统Web描述语言HTML只能够表达数据的内容,无法表达Web数据的结构特征,不便于半结构化数据查询这一不足,正在逐步替代HTML,成为新一代Web数据描述与数据交换标准。大量XML数据的出现,产生了对XML数据管理的需求。 由于XML描述的Web数据具有半结构化特征,使得以往主要面向结构化数据或者非结构化数据的研究成果不能很好地应用于Web数据处理,因而传统的数据管理方式(如关系数据库管理方式、面向对象数据库管理方式等)不能适应对XML描述的Web数据的管理需求。半结构化数据管理问题成为当前Web数据处理领域的一个研究热点,其中XML描述的半结构化数据的有效存储和查询是Web数据管理的难点问题。 本文围绕XML表达的Web数据存储和查询问题展开研究,研究内容和取得的成果主要体现在以下四方面: 1.数据模型 Web数据模型是对Web数据进行有效管理的前提。数据的有效查询是数据管理的一项重要内容。现有Web数据模型存在两个问题影响Web数据的有效查询:(1) 数据异构问题:由不同Web页面对同一数据对象的命名和描述差异所造成的数据异构问题,对多数据源集成造成了困难,影响了信息查询结果的完全性;(2) 查询回路问题:Web页面之间的超级链接引起的多个页面之间的循环引用,在基于路径的半结构化数据查询过程中会形成查询回路,导致大量重复、无效的查询结果。 针对这两个问题,本文提出了一种新的基于XML的Web数据模型——XWDM。该模型通过对XQuery 1.0和XPath 2.0数据模型的扩充,较好地解决了上述两个问题。 2.数据存储 针对Web环境中半结构化数据没有统一的模式,不便于存储管理这一问题,采用模型映射方式,提出了一种新型的基于关系数据库的半结构化数据存储模型——XPED。 XPED存储模型主要由数据模型,映射模式,索引模式,查询转换以及查询算法五部分构成。该存储模型针对半结构化数据到关系表格数据映射(mapping)这一难题,创造性地提出了三表映射模式,较好地解决了现有映射方式中存在的问题。能够有效地将Web中没有统一模式的XML数据及其附带的结构信息映射为关系数据库中的关系表,从而将基于XML的Web信息查找转换成基于关系数据库的数据查询。该存储模型能够充分利用