论文部分内容阅读
数据仓库是近年来兴起的一种新的数据库技术,它面向分析型环境,弥补了传统关系型数据库对分析型环境的支持不足,对企业的分析决策提供了强有力的支持。数据仓库是多个分布的、异质的、自治的数据源的集成信息库,信息以实视图的形式存储在其中,通过物理上的预先存储,有效地加快了数据仓库系统对用户的查询响应时间。本文主要对数据仓库中实体化视图选择算法进行了研究,并提出了若干更为高效、适用性更强的新算法。 实视图选择是数据仓库开发中的重要问题,目前已建立多个模型用于该问题的研究,其中AO View Graph模型应用最广泛。本文提出基于AO View Graph模型并利用不同算法进行实视图选择,为解决该问题,给出了AO View Graph模型的定义,并对其中涉及的重要概念和代价模型进行形式化工作。 基于给出的AO View Graph模型,提出了一个考虑维护代价并具有固定比值界的贪心算法,来实现实视图的选择。为了使算法能够处理更大规模的输入,提出了使用遗传算法解决实视图选择问题,针对给定的AO View Graph模型,将其转换为遗传算法中的二进制编码,以及对应的遗传操作,同时定义了适应度函数,给出了一个依据AO View Graph结构进行染色体编码并考虑对无效后代进行自动修正的遗传算法,这些算法显著地改善已有算法的适用性及执行效果。最后通过实验证明这些算法的有效性。针对贪心算法和遗传算法所存在的不足,提出了一个基于AO View Graph的实视图动态管理算法,通过一系列定理证明了该算法所产生结果的优秀性,并以实验验证了动态管理算法的有效性。此外为方便对算法进行测试,开发了一个算法测试系统。该系统能够根据用户输入的数据仓库描述信息模拟生成AO View Graph模型,对所设计的基于AO View Graph的各种静态算法和动态算法进行测试。