XML结构索引技术及查询优化研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：aiyi23_2008

【摘要】

：

为了实现XML的查询优化，近年来人们相继提出了很多索引技术和连接算法[12,13,14,15,16,23,24]。这些索引主要是根据边标签和元素值建立的。然而有的索引不包含所有的元素结点，

【作者】

：

郭松涛

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2003年期

【关键词】

：

XML Numbering Schema 存储 B~+树结构索引连接算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了实现XML的查询优化，近年来人们相继提出了很多索引技术和连接算法[12,13,14,15,16,23,24]。这些索引主要是根据边标签和元素值建立的。然而有的索引不包含所有的元素结点，因而在进行查询时许多路径仍需要检测；有的在向前或向后遍历时产生了大量的冗余数据，从而造成查询代价较大。另外，在所提出的算法中，尽管有的算法，如MPMGJN算法[23]优于标准的RDBMS连接算法，但是该算法为匹配基本的结构关系，特别是在父子关系情况下，执行了大量不必要的计算和占用了大量的I/O资源；有的算法虽然代表了结构连接算法的先进水平，如Stack-Tree-Desc[24]连接算法，但是它没有利用索引结构而是顺序浏览输入列表。这样，必然浪费I/O资源，影响连接的速度。针对以上情况，本文做了以下几个方面的工作：① 由于采用传统的Numbering Schema方法来表示XML文件结构不便于元素更新，本文在改进的基础上提出了Sparse Numbering Schema方法。与传统方法相比，其优点在于：由于在插入新结点时不需要重新计算其结点的start和end值，树结构更新效率得到提高；树的创建只需遍历一次文档，进一步地节省了建树开销；此外，它还能为索引提供一个相对持久和稳定的参考。② 鉴于目前关于Numbering Schema存储方法的研究较为少见，本文针对Sparse Numbering Schema进行研究，给出了在关系数据库中的存储方法。该存储方法不仅有利于根据start值快速建立索引，而且可以节省存储空间。③ 本文将关系数据库中B＋树索引技术与Sparse Numbering Schema相结合，提出了一种新的XML文件索引结构——B~+树结构索引，它对XML查询中连接操作和元素定位操作的优化有着重要作用。进而，通过引入指针对该索引进行改进，提出了一种带有Sibling Pointer的B~+树结构索引（简称B~+-SP）。利用这种索引可以克服元素查找总是从树的根部开始进行的缺陷。④ 基于B~+-SP索引，本文还研究给出了Anc-Desc-B~+-sp连接算法。经理论分析，其算法的时间复杂度O(|A|+log|A|)比没有采用该索引的Stack-Tree-Desc算法[24]的时间复杂度O(|A|+|D|+|outlist|)明显降低，因|D|≥|A|，故|D|+|outlist|>>log|A|。经初步实验表明，本算法是一个有效、快速的连接算法。⑤ 在XML查询中，影响查询时间的另一个重要因素是对涉及的XML数据源的定位问题。为解决XML数据源的快速定位问题，本文提出了一种分布式XML数据源定位系统框架，协作式XML搜索引擎（CXSE）。CXSE通过基于站点选择搜索和对XML数据源计分等方法来缩短收集时间，来实现对XML数据源的快速、准确定位。特别地，当在XML查询中同时涉及多个XML数据源时，该并行搜索技术也能起到一定的效果。

其他文献

NAT环境下基于SIP的端到端通信的研究

近年来，电信网综合通信能力明显增强，运营商必须提供更多的多媒体业务才能吸引住用户，因此网络面临的压力越来越大。在这一发展背景下，基于软交换技术的下一代网络(NGN)技术应运

学位

会话发起协议网络地址翻译应用级网关软交换

利用人工和自动生成的资源进行中文信息检索查询扩展

该论文中利用中文信息检索标准测试集,对信息检索系统及其算法进行了科学客观的评价,并对中文信息检索的最佳检索单元进行了详细的讨论和研究,在此基础上,重点讨论和研究了利

学位

中文信息检索中文分词信息检索系统

存储区域网管理系统中数据备份与复制技术的研究与实现

SAN使存储资源与服务器分离，可以提供100兆字节／秒的高性能数据管道和共享的集中管理的存储设备，使得数据的访问、备份和恢复不会大幅度降低网络性能，消除人们对网络带宽的顾虑。

学位

存储区域网(SAN)存储资源管理系统(SRM)数据复制动态数据备份(DDR)远程数据备份(RDR)

基于HTTP和Proxy防毒过滤网关的研究

随着Internet的飞速发展和广泛应用，大量的网络病毒已将Internet作为其一种主要的传播途径。网络病毒传播的方式很多，如通过访问网页、电子邮件以及FTP文件传输等等。为了使Web

学位

KPSGWeb病毒Proxywgav负载均衡

数据挖掘中的分类与预测模型的研究

机器学习的方法在数据挖掘领域有广泛的应用。在当今的机器学习领域，人们经常采用多预测模型的方法以提高预测的准确性。所有这些多预测模型方法可以归为两类：(1)专家方法 (2)

学位

时间Petri网的活性、有界性研究

Petri网是一种用于描述系统的动态行为和分析系统的动态性质的数学模型，对描述和分析并发现象有其独到的优越之处，非常适合于异步并发系统的建模。为了刻划同系统行为密切相关

学位

时间Petri网活性有界性性质保持判定条件

实时语音改变技术研究与实现

随着计算机网络通信技术和多媒体技术的飞速发展，计算机支持的协同工作(ComputerSuppoSedCooperativeWork，简称CSCW)已成为当前计算机科学领域一个十分活跃的研究课题。目前计

学位

音频信息语音处理线性预测模型

基于Internet的智能化信息检索算法技术研究

智能化信息检索是人工智能和信息检索相结合的产物.该文在研究了传统信息检索算法的基础上,运用现有检索模型对原有算法做出了改进,并给出了改进展开式算法和两种改进二叉树

学位

智能化检索算法二叉树展开式

运动估计快速搜索算法的研究与改进

视频编码技术在数字电视、高清晰度电视、可视电话、会议电话和多媒体等视频通信服务中起着至关重要的作用.H.264是ITU-T提出的最新视频编码协议,它采用了许多与以往协议不同

学位

图像压缩视频编码运动估计块匹配

XML结构索引技术及查询优化研究

其他学术论文