【摘 要】
:
随着计算机应用的不断发展和深入,高维数据的应用也越来越广泛.而传统的数据库索引技术如B+-Tree并不能提供高效的多维数据的存取.提出一种高效的多维点访问方法RP-Tree,该方法基于R-Tree结构,通过在插入算法中引入新的节点重构技术有效减少R-Tree中节点间的重叠区域.通过大量实验,证明该方法在经过测试的所有不同分布的高维点数据的存取中,无论是点查询还是区域查询,都要优于R*-Tree和K
【机 构】
:
中山大学计算机科学系 广州 510275
【出 处】
:
第二十五届中国数据库学术会议(NDBC2008)
论文部分内容阅读
随着计算机应用的不断发展和深入,高维数据的应用也越来越广泛.而传统的数据库索引技术如B+-Tree并不能提供高效的多维数据的存取.提出一种高效的多维点访问方法RP-Tree,该方法基于R-Tree结构,通过在插入算法中引入新的节点重构技术有效减少R-Tree中节点间的重叠区域.通过大量实验,证明该方法在经过测试的所有不同分布的高维点数据的存取中,无论是点查询还是区域查询,都要优于R*-Tree和KDB-Tree,且其物理利用率大大高于R*-Tree和KDB-Tree.同时RP-Tree的维护代价保持在可接受的范围之内.
其他文献
XML关键字搜索是一个用户友好的信息发现方法,非常适用于XML文档不存在schema的情况,但用户在XML关键字搜索中很难准确地表达搜索语义。现有的一些XML关键字搜索的研究是基于SLCA(最小最低公共祖先)方法,这种方法返回一组被称为SLCA的结点,一个SLCA结点满足:1)标签中或者后代结点的标签中包含所有关键字;2)没有任何一个后代结点是SLCA.SLCA方法的主要缺点是可能会丢失一部分有意
压缩数据库技术是海量数据管理的重要技术之一.利用海量高频度数据自身特点,提出了一种基于属性划分的海量高频度关系数据压缩存储方法。该方法通过存储非高频度数据的数值及其位置信息来减小存储海量数据的空间需求,从而有效地支持选择、投影、连接等基本操作.理论分析和实验结果表明这种压缩存储方法可以显著提高海量数据的存储效率和数据操作的性能.
P2P环境下的数据管理具有高可扩展性,可以为数以万计的用户提供数据管理服务.多维范围查询是数据管理系统中一项不可替代的基本查询功能.然而,当在P2P环境下一个范围查询涉及大量节点时,执行查询的时间代价和网络带宽消耗非常巨大而且无法避免.提出了一种P2P环境下的anytime多维范围查询处理方法。在查询处理过程中,算法不断地计算当前已获得结果的质量。如果已获得结果的质量满足用户的要求,查询处理算法可
随着硬件技术不断发展,特别是容量越来越大的内存,具有高性能的内存数据库逐渐成为人们研究的热点.然而,内存数据库的高性能却严重依赖于内存容量,由于内存容量受内存技术、服务器技术和操作系统位数的制约,可扩展性不好。针对这一问题,我们提出了可扩展内存数据库系统ScaMMDB.首先,我们介绍了ScaMMDB的体系结构,并重点介绍了RCAP(远程列访问协议)和EPM(扩展并行MAL语言);我们从体系结构和列
互联网上的信息与日俱增,随着信息检索技术的发展,用户已经能够通过Google,Yahoo,Baidu等搜索引擎提供和查询接口查询互联网中大量的文本数据库而得到一部分用户所需要得到的信息.然而,互联网上的更多信息是包含在网页后台的关系数据库中的,访问这些数据库需要用户了解数据库的数据模式,并且熟悉结构化查询语言,这对于普通用户来说太困难了.因此,提出了一种新的查询算法,并且在查询算法中加入短语的识别
基于马尔可夫链描述软件系统控制转移的动态特性,研究了基于马尔可夫分析方法的可信软件的可靠性建模问题。针对模块化的软件系统,综合模块自身的可靠性和模块间的转移调用对其在系统中的重要程度两个方面,分别定义了模块的可靠性函数和模块在系统中重要程度的函数,最后给出了系统可靠性的建模方法和相关函数.
正确发现流程实际运作情况对工作流管理有着重要意义。流程挖掘抽取系统日志信息,挖掘流程真实的运作模型.给出一种可学习循环结构的流程挖掘方法。首先根据工作流实例中任务间的执行顺序,把日志数据划分成不同聚类,缩减挖掘过程中的搜索空间.然后,通过扫描日志识别出处于模型最外层循环结构的记录,采用迭代方法来挖掘循环结构模型,并将该循环结构模型添加进原工作流模型中.最后,基于该算法实现了工作流模型挖掘原型,实验
在度量空间,像数字图像、文档和DNA序列这样的对象通常用高维特征向量点和距离函数表达语义。如何高效的在度量空间中处理高维数据的相似查询是对等网络数据管理的基本问题。以往在这方面的工作有许多局限性,例如不能适应高度动态的网络;数据倾斜时,查询效率下降等。设计了一个高效的算法——Dragon——来处理度量空间中的相似查询.Dragon通过以下设计高效地处理查询:1)Dragon是建立在之前设计的对等系
工作流性能分析是对工作流进行评价和优化的基础,时间性能则是衡量工作流性能的一个重要指标。利用概率论中关于服从指数分布的随机变量的分布函数、密度函数及数学期望的基本性质,详细地讨论了组成SPN模型的串行、并行、选择和循环4种基本结构的平均延迟时间,得出了通用的SPN模型平均延迟时间公式.通过对复杂SPN模型的等效化简,实现对工作流时间性能的分析.最后,通过实例说明了该方法的可行性和有效性。
在时间序列数据流中过滤预先定义的一些模式,可以实现对特定应用事件的监控.基于楔形区的时间序列过滤查询算法和以往的算法相比,明显地减小了执行代价.为了提高基于楔形区的过滤查询算法的精度,提出了一种针对时间序列数据流过滤的双向封装思想,不仅对楔形区进行封装,而且还对流动的时间序列进行封装.在此基础上,定义了时间序列与模式的下限函数,并设计了时间序列流双向封装过滤查询算法。由于对数据流的封装,减小了时间