论文部分内容阅读
数据集成是整合现有离散系统数据,实现综合集成应用的必由之路,数据抽取转换加载(ETL)是一种常用的成熟集成技术,也有很多ETL工具提供服务,但这些工具只负责将数据源的数据经抽取转换之后加载到数据目标,对事后审计追踪不予考虑,这对集成的数据使用带来了多方面的问题:首先,缺乏审计追踪机制极易造成集成后的数据不可靠、甚至不可用;其次,发现集成数据存在问题后查找问题起因极其困难,即使专业人士也不一定能解决;最后,一般用户发现某个局部数据存在问题就会怀疑与该数据经过相同处理的其它数据也存在问题,但缺乏审计追踪机制将无法确定问题的范围,唯一的办法是全部推倒重来,而这样代价太大,使得数据集成失去意义。本文针对这些问题进行了研究,重点研究了系统的元数据和追踪过程及算法,设计并实现了一个基于微软集成服务(SSIS)的集数据ETL功能与数据起源追踪功能于一体的系统,用户可针对目标数据中不同层次的对象追踪其起源,以实现ETL过程的可回溯性,为数据集成提供追踪审计以保证质量。本文首先对系统涉及的两个关键问题进行了研究与设计,包括两部分,一是系统元数据,二是数据转换过程各层次对象分解、定义及算法设计。系统元数据包括两部分,一是转换过程的元数据,这是追踪的基础,主要是转换描述文件,即转换包,本文在SSIS基础上重新设计了转换包并对转换包各部分进行了分析。二是追踪过程的元数据,包括对转换包进行序列化和对象索引的全局对象索引缓存器和逆函数库元数据设计。本文将数据转换过程分解为转换、映射和操作三层,对各层进行了分类并设计了底层的逆函数,在此基础上设计了各层次的逆置算法,并根据追踪目标的层次设计了每层的起源追踪及展现算法。然后设计了追踪系统的总体框架结构。通过分析比较现有各个应用领域的数据起源追踪系统,根据SSIS的ETL功能分析了系统的用例需求和活动,在此基础上设计了系统总体框架并划分功能模块,分析了追踪的层次及追踪流程。最后实现了系统,主要分为两大功能,即ETL功能和追踪功能。然后以一个实例展现了系统实现的效果。