论文部分内容阅读
分布式数据库系统是数据库与计算机网络逻辑上的结合。它是一组结构化的数据集合,物理上分布在计算机网络的不同站点上,而逻辑上是一个整体。但分布式数据库分布性和冗余性,使得数据查询操作变得复杂。如何提高分布式数据库查询效率、即查询优化,成为分布式数据库研究领域的一个重要课题。分布式查询优化的目标是使通信费用最低和响应时间最短,即以最小的代价,在最短的响应时间内获得需要的数据,以此为目标,查询优化的方法主要有基于直接连接的查询优化算法及基于半连接的查询优化算法。本文首先研究了直接连接查询,并对构造站点依赖的Hash划分算法进行了重点分析,针对Hash划分算法中重Hash划分开销较大的缺点,采用先判断后连接的思想进行了改进,优化了Hash划分算法。另外,分析了一般半连接查询优化算法的过程,针对该算法平均传输数据量较大的缺点,采用对连接的数据先分析再压缩传输的模式改进了半连接查询优化算法,降低了平均查询代价;又对半连接查询优化的经典算法SDD-1进行了分析,针对该算法未考虑最后一次传输的代价的缺点,采用在计算半连接代价时将最后一点传输率作为计算因子的思想对SDD-1算法进行了改进,提高了SDD-1算法的总体查询效率。本文通过实验测试计算对改进算法进行了验证分析并得出结论,改进算法提高了分布式数据库的查询效率。本文的研究成果及提出的改进算法中,基于缓存的Hash划分算法、SDD-1算法的并行性等问题仍存在一定的局限性,这将是今后的研究方向。