论文部分内容阅读
近年来,随着分布式数据库的应用越来越广泛,分布式数据库查询优化方法的研究一度成为分布式数据库领域的研究热点。然而其中的多连接查询优化问题却一直都没有得到很好的解决,并且传统的数据库查询优化技术对于分布式的多连接查询优化问题也显得无能为力,随着分布式数据库规模的不断增大,分布式数据库的多连接查询越来越影响着分布式数据库系统的整体效率。本文首先介绍了课题研究的背景和意义,并深入研究了遗传算法和分布式多连接查询优化的理论,就其关键技术进行了探讨和改进。在此基础之上,本文结合了遗传算法的特点和分布式多连接查询优化的特殊应用方向,基于面向对象方法、XML和UML等技术,设计并实现了基于遗传算法的分布式多连接查询优化系统GABQO(Genetic Algorithm Based distributed multi-join Query Optimization)。本文所做的主要工作可概括为:(1)深入研究了遗传算法和分布式多连接查询优化的理论,就其关键技术进行了探讨和改进,并论证了分布式多连接查询优化的必要性。(2)设计了基于遗传算法的查询优化系统GABQO。GABQO系统包括三大模块:GABQO-Framework系统框架、GABQO-Lib遗传算法开发库模块和GABQO-Query分布式数据库访问模块。(3)改进了应用于分布式多连接查询优化的遗传算法。GABQO系统针对左深线性树搜索空间提出新的编码方法和交叉、变异算子,在变异算子中加入了“仅允许更优变异”的机制,加快了算法的收敛和提高查询的效率。在适应度函数中加入了“奖惩”机制,加快了优良染色体的脱颖而出和低劣染色体的淘汰。(4)在仿真实验的环境中,通过不断实验得到了一组适用于GABQO系统的最佳参数值,并用这组参数值进行分布式多连接查询进行优化,达到了预期的优化效果。