论文部分内容阅读
公司的竞争实力已经从有形的产品转变为无形的信息。数据是信息的载体,当挖掘其中有价值的信息或者将其应用于某个领域时,数据质量都应该作为基本的需求得到保证。然而,数据往往存在一些质量问题,例如不完整、不一致、冗余、冲突、错误等,这些问题不仅影响了人们对信息的判断,甚至直接造成经济损失。清除坏数据、提高数据质量,对于应用服务、系统架构以及项目运维具有重要的现实意义。本论文选题来源于“安全可信的电信级生殖健康服务运营支撑体系关键技术研究”项目,主要解决项目中的健康检查数据的质量问题,为项目提供数据质量管理方案并设计清洗工具,使管理者掌握数据质量情况并能够对其进行有效控制,达到提高数据质量的目标。论文的研究工作主要体现在以下几方面:1.调查国内外数据质量研究现状、取得的研究成果以及相关国际标准,从数据质量定义、数据质量管理方法及模型、数据质量评估等理解数据质量问题,对不同需求的质量工具进行分类总结。2.数据清洗技术是数据质量控制的基本方法,其实现原理是对不同类型的缺陷数据运用统计学方法、数据挖掘算法、语义分析技术等进行数据修正,研究并总结了常用的清洗算法,包括异常记录检测和重复记录检测两大类。3.研究并借鉴成熟的六西格玛质量管理理论,结合项目业务需求及数据特点,设计了面向健康检查项目的质量管理流程及质量管理框架,将质量问题化解为业务流程控制问题。4.在质量工程总体设计阶段,分析项目中数据特征,分析数据模式中的数据关联关系,划分业务流程并识别质量问题,定义质量工程需求,并运用数据清洗原理,制定了符合业务需求的数据清洗策略。5.在研究的基础上,总结项目开发过程中数据质量处理经验,基于原有清洗工具设计了数据质量管理功能,在业务逻辑层设计了缺陷数据的识别以及处理流程,并在测试数据集上实施质量工程,从而实现了数据质量的提高。论文的主要贡献是,提出了一种基于数据模式的数据质量管理方法,建立质量管理流程与质量管理模型,在业务环节、数据模型中建立数据的对应关系,识别质量问题,并运用清洗技术处理不一致的数据。通过实验研究表明,本文提出的模式层次数据清洗方案能够有效识别以及控制数据质量。