论文部分内容阅读
数据仓库是市场激烈竞争的产物,它将大量用于事务处理的数据库数据进行清理、抽取和转换,并按照决策主题的需要重新进行组织,以达到有效决策支持的目标。
数据仓库是多个分布的、异质的、自治的数据源的集成信息库。数据仓库中的信息以视图的形式存储,我们称之为实体化视图。它通过物理上的预先存储,加快了用户的查询响应时间,性能也得到提高。作为数据仓库技术研究的热点之一,实体化视图的联机维护是数据仓库联机维护技术中的一个关键技术。它是指,在数据仓库为用户提供服务的同时,当数据库中的原始数据发生改变时,系统能实时地将这种变化反映到数据仓库中,使相应的实体化视图得到即时的刷新。
论文在实体化视图增量维护方面进行了研究,主要涉及以下几个方面的工作:
1、理论概括与分析对数据仓库中实体化视图涉及的主要算法、主要技术、以及存在的问题进行深入的分析。
2、合并分布连接算法将实体化视图合并是数据仓库中实体化视图维护一个新课题。在分析传统合并方法的基础上,提出了一棵用于索引视图信息的合并树,并利用这棵合并树生成一组合并实体化视图的算法。实体化视图合并算法不仅减少了实体化视图的数量,有效的提高了实体化视图选择的质量,而且减少了存储的空间以及搜索的时间。通过分析可以看出,利用合并树实现的实体化视图合并算法较传统的方法,减少了合并的时间。在数据仓库的维护中,若实体化视图V中的数据来源于多个数据源,就会涉及到表的连接,即JOIN 算法。表连接操作在数据仓库的维护中占有重要地位,其算法直接影响视图维护的速度。由于人们仅对变化的数据感兴趣,因此,只要将涉及变化数据的连接结果追加至实体化视图V中即可,本论文采用触发器技术来监测源表信息的变化,并把变化信息提取到新的关系中,通过标志位判断是增加元组还是删除元组,根据响应队列顺序,执行相应的连接操作,并把最终的结果追加到实体化视图中。
3、算法性能分析本文在在研究现有增量维护算法的基础上,提出了合并分布连接算法,给出了算法的正确性证明,并通过与已有的算法的对比分析,结合图表,可以很直观的得出合并分布连接算法较之前的连接算法,减少了运算次数,有效的提高了运行的效率。并经过具体的实例分析,给出了算法的具体操作流程。