论文部分内容阅读
随着Internet的发展和异构信息源集成技术以及存储技术的进步,网络中涌现出大量半结构化数据资源。XML由于其所具有的自描述性、灵活的数据结构以及丰富的数据表示能力等特点,逐渐成为数据表示、存储和交换标准之一。近年来,XML非完全结构查询处理技术作为有效管理XML文档的关键技术之一,引起越来越多研究人员的关注。 XML非完全结构查询(Non-fully Structured Query,NFS Query)是指满足用户在缺乏完整的XML文档结构信息情况下的查询需求。NFS查询是近两年出现的XML查询技术,其主要面向缺少完整的结构信息说明以及异构环境下的查询需求。在实际中,特别是在Internet和Intranet上,大部分XML文档缺少结构说明或存在异构现象,这使得NFS查询有着广泛的应用前景。本文就XML非完全结构查询处理技术中的有意义的NFS查询结果判断技术和基于内容的查询结果聚类技术进行了深入研究。 有意义的NFS查询结果判断是NFS查询处理中非常重要的一环,现有的判断方法,如XSEarch中的Interconnection Relationship和Timber中MLCA,都是从一个特定的角度来设计判断标准,缺乏一个准确和全面的定义,这使得它们只能适用于特定的XML文档。另外,现有方法无法适应于大规模XML文档,如XSEarch的索引建立时间和Timber的查询时间在大规模XML文档下远远超出用户的容忍程度。 本文提出了一种基于模式和实体概念的有意义的NFS查询结果判断模型一PE模型。PE模型从系统角度出发定义了一种用户普遍接受的判断方法,与具体的等价模式和等价查询项的判断方法无关,具有可扩展性。基于PE判断模型,提出一种具体的基于结构相似性的等价模式判断方法,并给出了一个判断规则。为了提高NFS查询的执行效率,设计了模式索引PE和增强的倒排索引I2P,提出一种高效的NFS查询算法,它们不仅可以支持高效的路径查询和关键字查询,而且可以有效地支持本文提出PE模型,并有效地利用了现有XML数据库系统中的索引资源,适用于大部分XML编码方案。实验表明,本文方法的效率和准确率要远远高于XSEarch和Timber系统,适用于大规模XML文档。 NFS查询为非精确查询,在XML文档规模较大的情况下,NFS查询往往返回大量结果。而以文档为中心的XML文档节点包含了大量的文本信息,为了方便用户快速定位所需信息,通常需要对结果按照内容进行聚类。文档聚类是实现这一目的的有效技术之一。基于概率模型的聚类方法具有高维数据适用性和簇可