论文部分内容阅读
数据抽取转换装载(ETL)是数据仓库的核心组成部分,负责从异构的数据源中抽取数据,对这些数据进行清洗、转化,并最终加载到数据仓库当中去。ETL平台开发和设计的好坏直接影响了数据仓库的构建乃至整个商业智能系统的应用。因此,对达梦数据交换平台(DMETL)进行改进以提高产品的指标具有重要意义。在深入研究和分析了达梦数据交换平台的工作原理和机制以及该平台在设计和实现中所涉及的关键技术的基础上,找出了现有达梦数据交换平台存在的不足和缺陷,提出了两种改进方法。其一:考虑到原有DMETL的串行工作方式不利于发挥系统的功效,将流水线技术引入到达梦数据交换平台之中。流水线的工作方式实质上是利用多线程和缓存技术,使得ETL数据的抽取,转换和加载三个环节的执行可以抽象成流水线一样运行在不同的线程实例中,从而减少了中间环节的等待时间。通过流水线工作方式充分的利用了计算机资源,提高了系统的吞吐率,提升了ETL的工作效率。第二,针对原有DMETL增量抽取方式对客户系统进行未授权操作所带来的弊端,同时考虑到实际项目中ORACLE作为数据源的应用较多,设计和实现了针对ORACLE数据源的基于日志分析的增量数据抽取方式。利用ORACLE数据库自身的日志分析工具LOG MINER,对数据库日志文件进行解析,获取用户对数据库的变更操作。通过分析数据库的变更操作来对数据库中的增量数据进行捕获。该方法可以有效降低DMETL对客户系统的影响。通过实验表明,流水线技术的引入是可以在一定程度上提高达梦数据交换平台的工作效率的,并且基于日志分析的增量捕获方式也是可以避免对客户业务系统的侵入。此外,这项工作对达梦数据库开发并提供其数据库日志分析工具也有参考价值。