数据质量管理与数据清洗技术的研究与应用

被引量 : 46次 | 上传用户:roadog212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
公司的竞争实力已经从有形的产品转变为无形的信息。数据是信息的载体,当挖掘其中有价值的信息或者将其应用于某个领域时,数据质量都应该作为基本的需求得到保证。然而,数据往往存在一些质量问题,例如不完整、不一致、冗余、冲突、错误等,这些问题不仅影响了人们对信息的判断,甚至直接造成经济损失。清除坏数据、提高数据质量,对于应用服务、系统架构以及项目运维具有重要的现实意义。本论文选题来源于“安全可信的电信级生殖健康服务运营支撑体系关键技术研究”项目,主要解决项目中的健康检查数据的质量问题,为项目提供数据质量管理方案并设计清洗工具,使管理者掌握数据质量情况并能够对其进行有效控制,达到提高数据质量的目标。论文的研究工作主要体现在以下几方面:1.调查国内外数据质量研究现状、取得的研究成果以及相关国际标准,从数据质量定义、数据质量管理方法及模型、数据质量评估等理解数据质量问题,对不同需求的质量工具进行分类总结。2.数据清洗技术是数据质量控制的基本方法,其实现原理是对不同类型的缺陷数据运用统计学方法、数据挖掘算法、语义分析技术等进行数据修正,研究并总结了常用的清洗算法,包括异常记录检测和重复记录检测两大类。3.研究并借鉴成熟的六西格玛质量管理理论,结合项目业务需求及数据特点,设计了面向健康检查项目的质量管理流程及质量管理框架,将质量问题化解为业务流程控制问题。4.在质量工程总体设计阶段,分析项目中数据特征,分析数据模式中的数据关联关系,划分业务流程并识别质量问题,定义质量工程需求,并运用数据清洗原理,制定了符合业务需求的数据清洗策略。5.在研究的基础上,总结项目开发过程中数据质量处理经验,基于原有清洗工具设计了数据质量管理功能,在业务逻辑层设计了缺陷数据的识别以及处理流程,并在测试数据集上实施质量工程,从而实现了数据质量的提高。论文的主要贡献是,提出了一种基于数据模式的数据质量管理方法,建立质量管理流程与质量管理模型,在业务环节、数据模型中建立数据的对应关系,识别质量问题,并运用清洗技术处理不一致的数据。通过实验研究表明,本文提出的模式层次数据清洗方案能够有效识别以及控制数据质量。
其他文献
综述了ClO2作为空气清新剂的发展概况;用固体原料混合在稀酸条件下反应,添加载体的方法制得了缓释型ClO2空气清新剂,探讨了反应条件和载体的筛选,并对产品的除臭情况进行了试验.
随着人类社会的不断发展演进,现代景观的塑造和设计融入了更加密切的与人类活动相关的功能因素和更多的科学原理,探索愈发多元和多样。人们更加关注环境和景观的自然属性,生态理
可持续增长是关乎到企业生存发展的生命线。这些年来随着一些企业不顾自身现实情况盲目扩大规模,最后导致企业倒闭的例子数不胜数;不仅为企业的领导者敲醒了警钟,也让管理者注意
在19世纪美国文艺复兴时期,梭罗是极少受到关注的作家和思想家,但是随着20世纪文学生态学和环境伦理学的兴起,批评家们开始关注和解读《瓦尔登湖》所体现的人与自然的关系,梭罗也
随着中国-东盟自贸区的建成和运行,与东盟水陆相接的北部湾地区旅游业发展潜力无穷。面向东盟市场,北部湾旅游企业拥有得天独厚的优势:天时地利尽占。但同时令人侧目的是面对
本文通过对大连机场出入境快件检验检疫业务模式的研究和信息化手段的探索,提出了将计算机技术运用到快件检验检疫监管业务当中,通过电子化手段实现智能监管的论点。目前我国
研究目的:了解农牧区蒙古族人群脑卒中发病率及其分布特征;探讨传统危险因素、炎症和内皮功能异常指标与脑卒中发病的关系;探讨危险因素的聚集与脑卒中发病的关系,为脑卒中防治策
目的探讨慢性咽炎的中医辨证治疗方法及疗效。方法分析35例慢性咽炎患者的临床资料,所有患者均进行中西辨证分型治疗。结果 35例患者治愈11例、显效15例、有效7例、无效2例,
伦理是社会存续的基础性条件,能够促使社会实现有序状态,能为制度规范的形成提供合理性引导,消除社会道德规范的技术性冲突。监狱人民警察职业是一个拥有特殊职权的职业,具有
<正>日常生活中,人们免不了会遇到向别人借钱或别人向自己借钱的情况,打不打借条,借条如何写,就成了一个很现实的问题。本文就几起因借条引起的诉讼作了法律解析,希望对读者