论文部分内容阅读
数据清洗能够提高数据质量,保证数据的可用性、可靠性、一致性、完整性、有效性和唯一性,有效满足不同业务场景的数据分析和清洗需求。本文通过对数据清洗的功能架构、技术架构、数据备份、数据清洗、数据存储模型和清洗模型驱动的研究,建立面向多类型数据库的自定义数据抽取机制,自由灵活的建立数据分析清洗对象集,基于建立的数据集,进行纵向计算与分析,数据列与列之间的横向逻辑和数学计算,掌握数据集的特征。通过对数据相似度比较、数据异常识别、数据越限判断和数据缺失统计等算法的融合,结合基于模型驱动的数据清洗流程,可根据统计分析