论文部分内容阅读
ETL过程在数据仓库的建设与维护中占据了相当重要的位置,用于将数据源的数据经抽取、转换后,装载入数据仓库中。降低ETL过程设计、维护代价以及提高ETL过程的执行效率,可以有效降低数据仓库的建设和维护代价,这是本文研究的目标。设计完成的ETL过程可能需要更改,便于修改的增量ETL过程维护代价就低,这与描述ETL过程的模型有关。ETL过程中,增量ETL过程的设计代价最高,基于数据仓库是建立在远程数据源上的物化视图集合的观点,全量ETL过程是这些物化视图的定义,增量ETL过程则是其增量维护的过程,则可以利用已有物化视图增量维护的方法,根据全量ETL过程来生成增量ETL过程。但是ETL过程还包括了数据清理和异构数据转换,这是传统的关系模型所无法描述的。完整的扩展ETL过程不仅包括将正确的数据装载到数据仓库中,还需要将数据源中的错误数据进行修正,提高逆向数据清理的执行效率同时也就提高了ETL过程的执行效率。本文工作的主要贡献和研究内容如下:1.给出了一个用于描述ETL过程的模型,称为ETL过程树,将异构数据转换、数据清理与查询树结合。ETL过程树中数据清理规定只作用于单个关系节点,当修改ETL过程树中的数据清理规则时,不会对ETL过程树本身产生影响,降低了ETL过程的维护代价。2.给出了差运算物化视图的增量维护的方法,给出了SRA和BRA两种增量维护方法,并讨论了增量的大小对这两种方法执行效率的影响。3.在前两点的研究基础上,给出了根据描述全量ETL过程的ETL过程树自动产生增量ETL过程的算法,从而降低ETL过程的设计总代价。4.利用已有数据血统查询的方法,同时考虑增量ETL过程中错误数据只出现于插入增量中的特性,给出了在增量ETL过程上进行错误数据逆向查询的算法,提高了逆向数据清理的效率。