论文部分内容阅读
数据清洗是保证数据质量的重要环节。已有的清洗方法往往过于依赖特定应用,不容易得到重用。从提高数据清洗方法的可重用性和可扩展性的角度出发,提出一种基于总线模型可复用的数据清洗框架。具有相对独立功能的清洗工具以组件的形式,通过适配器挂接到清洗总线上,通过总线控制对清洗组件实现清洗。最后用具体应用来描述基于总线模型的数据清洗方法的工作流程。实践结果证明该方法具有良好的性能和应用价值。