论文部分内容阅读
本文的主要研究工作和成果如下:
(1)介绍了ETL的国内外研究现状;对ETL相关理论技术进行了阐述和分析。重点探讨了其中的数据转换、数据质量问题、数据清洗等相关理论技术,还分析了SQL与ETL的关系。
(2)详细介绍了传统和主流的ETL架构,分析了主流ETL架构中存在的性能问题和数据质量问题,并且结合参与ETL项目和数据质量项目的实际经验提出了基于数据质量管理的ETL架构。
(3)研究并设计了一个具有灵活性和可扩展性的ETL架构。该架构中包含了缓冲区数据库,在此基础上可充分利用RDBMS的性能,对ETL流程的性能有较大提高。同时,通过引入数据质量管理,实现了对ETL流程中的数据进行数据质量管理。
(4)开发实现了一个基于新架构的ETL设计工具(ETL Designer)。该工具设计的ETL流程具有以下优点:在性能上,体现了新架构的优越性;在流程控制上,方便了ETL流程对数据的灵活控制;在数据质量管理上,为用户提供了一个良好的数据质量管理机制。
主要创新点:研究、设计了一个基于数据质量管理的ETL架构,以及开发、实现了一个基于该新架构的ETL设计工具。基于数据质量管理的ETL架构是对主流 ETL架构的改进,它的提出是对ETL研究的有益探讨。实验结果表明,基于该架构的ETL流程在性能和数据质量上都得到了较高的改善。