论文部分内容阅读
原有的物化视图选择算法大多数都假设查询是均匀分布的,而在实际应用中,这个假设一般是不成立的.本文在查询分布不均匀和总的存储空间一定的情况下,提出一个物化视图选择的解决方案.该方案分两个步骤:第一步,收集对数据仓库系统的常用查询及其查询概率,并提出一个物化视图的静态选择算法.第二步,在系统的运行过程中,记录实际的查询及其频率,在此基础上,对静态选择产生的视图进行简单的调整,以适用实际的情况,提高系统的查询效率.静态选择算法是本文的主要贡献,文中从n维星型模型引导出一个含有2个结点的视图偏序图,以前的算法对偏序图上所有的结点都计算其大小(行数),计算量相当大.为此,本文提出一个候选视图的选择算法,将不可能被物化的视图首先排除,大大降低了在选择过程中的计算量.视图的代价模型有很多,本文选择一种改进的线性模型,该模型突出了视图的查询概率.在候选视图和改进的线性代价模型的基础上,提出物化视图的静态选择算法及其伪码表示,并给出了算法的分析与验证,分析指出通过该算法选出的视图很好的体现了对数据仓库的实际需求,试验表明静态选择算法可以大大降低物化视图选择过程的时间.动态调整方案是在分析了静态选择算法的适用范围的基础上提出的.在数据仓库的运行中,事先预测的常用查询与实际的查询需求往往有一定的差距.系统运行中记录各个实际查询及其频率,当频率在一定时间内达到相当的值时,该查询所对应的视图应该被物化,并在已经物化的视图中选择近期查询频率低、收益少的视图删除,以提供足够的空间来存储将要被物化的视图.在本文中,动态调整方案还处于初步的探讨阶段.