论文部分内容阅读
数据仓库中数据质量问题直接影响后续的统计、分析和决策。ETL工具是提高数据质量的关键一环。传统的ETL产品和现有的原型系统对数据质量问题中的拼写错误与重复记录处理等比较核心的问题支持不足,虽然有的商业产品通过特定的接口借助第三方工具进行数据清洗,但是容易造成事实的(defacto)数据质量的事后(Reactive)处理效果。如何在ETL过程中提高数据质量成为数据仓库研究和应用中迫切需要解决的问题。
本文在深入分析国外相关领域的研究工作的基础上,设计与实现面向数据质量的ETLQ,ETLQ支持预先(Proactive)处理数据质量问题的策略,将提高数据质量的清洗技术与ETL过程动态地结合,在数据流动过程中提供一种清洗技术,提高入库数据的准确性、标准性和一致性,降低错误或重复数据加载入库的可能性。
具体来讲,本文主要的研究内容和成果如下:
■提出了在数据仓库环境中面向数据质量设计ETL系统的新策略——预先而非事后处理的策略。本策略通过质量因子(简单质量因子与复杂质量因子LookupQ和ClusteringQ)在数据录入与集成两个层面进行相关的数据质量的改善处理;
■提出了新的相似函数的构造方法。利用q-gram符号化技术、编辑距离、TF-IDF加权模式和向量的cosine等传统概念与技术的特点为构造相似函数提供了新的实现思路,能准确地度量实体(元组或某些字段集)之间相似程度;
■设计与实现了高效的质量因子的实现方法。本文使用标准SQL语句实现质量因子,从而利用RDBMS的强大查询引擎的优化性能和数据存储管理功能,满足仓库环境中大数据量的处理要求。同时,利用标准关系表实现快速检索的“索引”表,加速相似匹配的查找过程,为高效实现LookupQ与ClusteringQ复杂质量因子奠定基础。
基于以上的设计思路与理念的技术,已经在实际的项目中实现。通过应用证明,ETLQ能够适应政府与企业信息化建设中的数据集成项目的需求,在对数据进行抽取、转换的同时,将清洗后准确的、一致的和及时的数据加载入目标存储区中。