论文部分内容阅读
数据仓库的构建是一个复杂,庞大,循环往复的过程。要构建一个优秀的数据仓库平台涉及到很多技术,需要考虑很多方面。本文就数据仓库中的优化问题提出探讨。
本文首先介绍一些常用的优化技术,如数据抽取中的优化策略,物理建模中可以利用的分区和索引技术等。
然后引出本文的核心研究内容——物化视图的选择。联机分析处理的难题是,在海量的数据中要对用户的复杂查询做出快速的响应。而物化视图由于它的灵活性,响应时间短,方便维护等优势,正好解决了这一难题。物化视图的本质是以牺牲存储空间和维护代价来换取快速响应时间。由于存储空间的限制,如何在有限的空间中选择视图进行物化,以达到最高效率的查询,是本文研究的主要内容。
接着就目前常用的物化视图选择算法之一,遗传算法提出讨论。分析了它的不足和应用的局限性,并提出了一种改进的算法:一般遗传算法和模拟退火算法相结合的遗传退火算法。该算法充分利用一般遗传算法的全局把握能力强和模拟退火算法的局部搜索能力强的特点。同时提出了物化视图选择的代价模型,这种代价模型充分的考虑到了物化视图在选择时的查询代价和维护代价。最后利用遗传退火算法的思想,结合代价模型,具体的阐述了物化视图的选择过程。在物化视图的具体选择过程中,本文还引入了多项式求解约束的思想,来解决选择过程中产生的无用解。
最后,本文引入了物化视图的动态调整。由于常见的视图选择方法都是基于用户事先提出查询,而且查询分布均匀,并长久不变的情况。但是在大型的数据仓库项目中,用户不可能一下提出所有的查询需求,而且随着时间推移,用户的查询需求也会发生改变。而推翻以前的物化视图,重新进行物化视图选择的代价是相当大的,而且也不是即时的。所以本文提出一个比较全面的动态调整方案。结合物化视图的收益模型和调整时机,该方案不仅能够及时的调整物化视图,还能够防止由于频繁更新物化视图集合而带来的负面影响。并且通过实验验证了方案的有效