分布式数据库查询处理和优化算法的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:xiaodaoluan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式数据库系统是数据库系统与计算机网络相结合的产物,它主要研究在计算机网络上如何进行数据的分布和处理。对于查询操作,若是在分布式环境中,由于查询涉及的关系通常被分片或复制在多个站点中,所以计算代价时不仅要考虑CPU 和I/O 的速度,还要考虑数据在站点间通信时产生的网络传输代价。由于查询中的连接操作需要的通信代价较高,所以,为了使分布式数据库能更有效地处理连接,国内外学者一直在进行这方面的研究,形成了各种不同的算法。其中,广泛使用的一种方法就是基于哈希划分的连接优化算法。经过哈希划分后的每一个关系根据哈希函数值被划分到不同的片段,并存储在不同的站点中。不同关系通过相同的HASH 划分后,在连接时将保持站点依赖。但是,当多个关系连接时,一般又都存在着重哈希划分问题。重哈希划分将大大地增加站点间的通讯代价。虽然前人也提出了一些代价模型和算法,以减少重哈希划分次数,但这些算法要么存在局限性,要么在查询规模变大时得不出满意的优化结果。本论文通过阅读大量文献,首先描述了各种分布式数据库的连接算法,然后对基于哈希划分的分布式连接算法进行了详细讨论,特别是对CHAIN 算法和Kruskal 启发式算法进行了较深入的分析和研究,并在此基础上引入了一种基于查询图分割的启发式哈希划分连接算法。该算法将查询图分割成若干查询块,然后对相应查询块分别进行优化,以获得较好的优化结果。它的主要特点为:①分别引入了边界点和查询块的概念;②在对查询图进行分割时,引入了判断边界点的两个准则;③算法中所有连接操作的费用都是以基于哈希划分的代价模型来计算的;④整个算法运用了回溯的思想;⑤算法应用了Kruskal 启发式算法和CHAIN 算法对相应查询块进行优化;⑥利用算法得出的优化结果,连接操作可在站点间并行执行。该算法对查询图进行深度优先搜索,产生各个边界点及相应的查询块。然后利用Kruskal 启发式算法对特定的查询块进行优化。当一轮遍历结束后,算法将重新构造一个新的查询图,接着对该查询图以深度优先搜索,重复以上各步操作,直到查询图不能再分割为止。论文最后对本算法进行了实验验证,实验结果表明使用该算法产生的关系连接序列花费的代价比传统的Kruskal 启发式算法更小。
其他文献
图像的显著性是以区域的形式表现出来的,是指图像中最引人注意且最能表现图像内容的部分。显著性检测就是通过模拟人类视觉系统将图像中的显著部分提取出来的过程。图像显著
网络多媒体监控系统是一个集多媒体信息的综合性、计算机的交互性、通信的分布性和监控的实时性等技术于一体的综合系统。针对当前的网络多媒体监控系统具有部署困难、跨平台
随着虚拟现实硬件设备以及虚拟现实技术的发展,虚拟现实不仅在科研和设计等领域应用广泛,在科技展示领域也得到了越来越多的应用。应用了虚拟现实技术的科技展品比传统的科技
互联网是个巨大的信息资源库,从这个资源库中提取和检索出有用信息是个很重要的课题。搜索引擎是通用的信息检索服务。 搜索引擎一般由Crawler、索引库、检索器和用广接口
当今世界是一个信息时代,不管是在移动社交还是在移动电子商务、物联网平台,PUSH(推送)技术都得到了很大的应用,另外,Push技术改变了传统的“拉”信息的方式,使信息主动寻找用户,更适
本文使用语言学中的标志词假设来指导汉英翻译单元的抽耿,取得了较好的抽取效果。本文从以下三个角度对标志词在汉英EBMT中的应用进行了研究:1.在介绍了目前已经使用的英语
数字签名是信息安全领域的一个重要的研究方向。数字签名能保证报文的真实性、完整性以及签名者的不可否认性。普通的数字签名具有局限性,一旦密钥被盗,攻击者就可以伪造签名
针对近年来地理信息系统(GIS,Geographic Information System)在公共管理,科学研究和商业等领域的应用现状和配电管理的实际需求,本文以配电网GIS系统的开发为背景,根据配网管理自身的特点,讨论了适合于配电网络的空间数据组织方式,重点研究了适合配电网GIS系统的空间索引结构。 随着GIS在各个领域的广泛应用,GIS已形成了多层次和不同尺度的应用格局。既要有综合型的通
本文在项目反应理论(IRT)框架下,就目前流行的参数估计方法进行分析比较;对IRT中3PLM的参数估计问题,用传统的统计估计方法解决得并不令人满意,我们应用新的估计方法——改进
统计学习理论是一种专门研究有限样本情况下机器学习规律的理论,它不仅考虑了对推广能力的要求,而且追求在现有有限信息的条件下得到最优结果。支持向量机是在统计学习理论的基