论文部分内容阅读
随着社会信息化程度的提高,人们对于信息实时性的要求也日益提高。如何从海量的信息中查找到所需的最新信息越来越引起人们的关注。而XML作为网络数据表示和交换的标准,很多专家、学者都已在XML数据编码、索引、查询等方面做了大量的卓有成效的工作。但是大部分技术并不支持XML数据的动态变更,当数据变更过于频繁时,就需要对数据重新编码或者是重新构建索引。随着XML文档的规模的不断增加,这种操作所费的代价有时是不能忍受的。良好的编码和索引方案可以为高效的XML查询处理和数据更新提供强有力的支持。为此,本文的在支持XML数据动态变更的编码和索引方案方面进行了有益的探索。文章首先对XML文档的结构特点和编码技术进行了深入的分析,并提出了一种新的支持XML数据动态变更的编码方案——LSVP (A New Labeling Scheme using Vectors Based on Polar coordinate system for Dynamic XML Data,基于极坐标下的向量编码方案)。该方案为每个XML结点分配一个唯一的向量编号,由于任意两个向量间可以插入无数个向量,所以有足够的空间供新结点的插入、更新、删除操作,而不会对有结点的编码产生任何影响。同时通过编号还可以快速判断出任意两个结点间的关系。所以当有XML数据频繁变更时,可以极大的提高结点编码的效率。在LSVP编码方案的基础上,本文又提出了一种新的索引方案——ISDX (Index Scheme for Dynamic XML Data)。该方案借鉴了传统关系数据库的关键技术,将XML数据的路径摘要信息存储于二维表中。当进行查询操作时,通过查找路径摘要就可以得到该标签路径下的所有结点,跳过大量无关的结点。最后通过实验,对ISDX索引与XISS索引在索引建立时间、查询效率等方面做了大量的对比。ISDX索引不仅比XISS索引更好的支持XML结点的动态更新,而且索引的生成时间和查询效率都有一定程度的提高。