论文部分内容阅读
物化视图(Materialized Views),也可称之为快照,可以用来存储远程数据的副本,被广泛应用在数据仓库和联机分析处理等各项应用中。随着数据挖掘等研究的不断深入,数据仓库中不断膨胀的数据量成了研究的瓶颈。众所周知,数据库中连接、投影、选择等复杂查询操作浪费大量时间,为了减少这样的时间消耗,人们使用物化视图存储这些复杂而耗时的操作,将查询结果存储在数据库中,通过这种预计算来减少响应复杂查询的时间。但是,由于数据库中的数据不是一成不变的,当数据库中的数据发生变化时,物化视图中的数据需要进行相应的更新,这就涉及到物化视图的维护问题。物化视图的有效维护直接关系到数据仓库和联机分析处理的系统效率,是数据库研究领域很重要的课题之一,虽然某些数据库管理系统自身提供了几种物化视图数据更新的方式,但是,当数据库中的数据量非常庞大时,现有的物化视图更新方式所耗费的时间便会成倍的增长。本文主要研究基于数据血统追踪的物化视图更新技术研究,针对物化视图需要刷新其数据,保证数据一致性的要求,提出标注形式的血统追踪算法及文档工作流形式的血统追踪算法,并将这两种算法运用到物化视图更新技术中。主要研究工作和取得的成果如下:1.开发了一个物化视图更新技术仿真的软件平台,该平台为物化视图更新提供了方便的测试运行环境。软件实现了对数据源数据的访问,可以方便的修改源表中的某些可修改的数据信息,通过调用不同的函数对物化视图更新的方法分别进行实验,使得使用者的主要精力只需集中在所要解决的问题上2.基于数据血统追踪的物化视图更新技术的研究为物化视图数据的更新方式提供了个新的思路。提出一种采用标注形式对数据血统进行追踪的算法,并为其动态建立二叉线索树的模型,以此对更新的数据进行追踪,从而实现物化视图的快速更新,通过一组实验对该算法的有效性进行了证明。3.提出一种基于Petri网模型的以文档流的分割及合并等变化来研究数据血统追踪的算法,采用模块式的文档工作流作为研究对象,考虑数据内容不变,只是数据的组合变化的情况。以Petri网的形式构造出文档数据流变化的数据模型,通过一组血统追踪的测试表明,该方法可以较好的实现文档工作流形式的数据血统追踪问题,扩展物化视图更新的应用范围。