基于数据质量管理的ETL系统的研究与设计

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:liongliong442
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的主要研究工作和成果如下: (1)介绍了ETL的国内外研究现状;对ETL相关理论技术进行了阐述和分析。重点探讨了其中的数据转换、数据质量问题、数据清洗等相关理论技术,还分析了SQL与ETL的关系。 (2)详细介绍了传统和主流的ETL架构,分析了主流ETL架构中存在的性能问题和数据质量问题,并且结合参与ETL项目和数据质量项目的实际经验提出了基于数据质量管理的ETL架构。 (3)研究并设计了一个具有灵活性和可扩展性的ETL架构。该架构中包含了缓冲区数据库,在此基础上可充分利用RDBMS的性能,对ETL流程的性能有较大提高。同时,通过引入数据质量管理,实现了对ETL流程中的数据进行数据质量管理。 (4)开发实现了一个基于新架构的ETL设计工具(ETL Designer)。该工具设计的ETL流程具有以下优点:在性能上,体现了新架构的优越性;在流程控制上,方便了ETL流程对数据的灵活控制;在数据质量管理上,为用户提供了一个良好的数据质量管理机制。 主要创新点:研究、设计了一个基于数据质量管理的ETL架构,以及开发、实现了一个基于该新架构的ETL设计工具。基于数据质量管理的ETL架构是对主流 ETL架构的改进,它的提出是对ETL研究的有益探讨。实验结果表明,基于该架构的ETL流程在性能和数据质量上都得到了较高的改善。
其他文献
计算机游戏是计算机科学的一个重要组成部分。计算机游戏的研究领域包括游戏AI引擎、游戏视频引擎和游戏音频引擎等。在当前的计算机游戏研究中,开发人员把主要的精力集中在AI
在并行与分布式系统中,负载平衡是优化系统性能、增强其效率的重要环节。扩散和维交换方法已经成为两类重要的局部迭代负载平衡方法。自1989年由Cybenko和Boillat提出局部迭代
随着AMD和Intel陆续推出多核CPU,算法对并行计算的需求更加迫切。在数据挖掘领域中,支持向量机(SVM)由于其在分类和时间序列挖掘等应用领域中的高准确度而为业界普遍推崇,但同时
本文先后讨论了数据质量的产生原因及其影响要素、数据质量问题的分类、数据质量分析方法以及数据质量分析系统的概要模型。主要工作和创新点如下: 1.将数据质量分析方法归