论文部分内容阅读
在当今大数据时代背景下,数据质量直接影响相关任务的有效性。数据质量专家估计,错误的数据可能会使企业损失其系统执行预算总额的10%到20%,并且一个项目的执行可能需要花费40%到50%的项目预算在数据清洗中。数据清洗是一个耗时,耗力和繁琐的过程。数据质量的好坏直接影响企业决策和科研结果的正确性和有效性,因此,研究者提出了多种数据清理的方法,以便(半)自动地识别错误,并在可能的情况下纠正它们。
在过去几年里,出现了大量基于完整性约束、统计或机器学习的数据清理方法。尽管它们具有适用性和通用性,但它们无法确保修改数据的正确性。为了提高这些方法的准确性,常用的方法有引入表格主数据和领域专家等。然而这些方法需要的资源是稀缺的,通常也很昂贵。本文在机器学习的数据清洗方法基础上,引入领域专家,将机器判定不确定的数据交与人清洗,在高效的清洗过程中,尽量减少人力资源的消耗,并使数据质量进一步的提升,且修改数据的正确性有一定的保证。
本文使用主动学习技术,综合机器学习的高效性和人检查数据的可靠性,使得数据清洗过程高效且具有一定可靠性。同时,为了减少机器学习不可靠的修改建议,降低人检查数据的消耗,以及降低正确数据被修改错误的风险,本文在尽可能少修改数据的前提下,综合机器学习概率分类特性(本文采用朴素贝叶斯分类器),引入确定度指标实现以上目标。此外,本文还引入了确定度增益指标,用于评估机器学习预测值与原始数据的分歧程度,以此判定哪条数据优先交与人检查和清洗。将分歧大的数据清洗后反馈给机器学习预测模型,使其不断学习未掌握的概率分布,提升预测的准确度,以此达到降低人参与度的目的。本文还在多个属性可能存在脏数据的背景下,完成多属性清洗模型的建模。
本文在理论基础上,使用Python语言、基于Flask框架编写了数据清洗系统:基于主动学习的数据清洗系统( The Active Learning Based Data Cleaning System,简称ADC)。ADC系统具有界面简洁,功能清晰,操作便利等优点。
实验结果表明,本文方法可以方便快捷地完成数据清洗任务,最终使数据质量有明显提升,且清洗过程中人的参与度不高。另外,本文还从多角度验证了本方法的有效性,同时在使用相同数据的情况下与使用机器学习的相关数据清洗研究对比,验证本方法是更有效的。
在过去几年里,出现了大量基于完整性约束、统计或机器学习的数据清理方法。尽管它们具有适用性和通用性,但它们无法确保修改数据的正确性。为了提高这些方法的准确性,常用的方法有引入表格主数据和领域专家等。然而这些方法需要的资源是稀缺的,通常也很昂贵。本文在机器学习的数据清洗方法基础上,引入领域专家,将机器判定不确定的数据交与人清洗,在高效的清洗过程中,尽量减少人力资源的消耗,并使数据质量进一步的提升,且修改数据的正确性有一定的保证。
本文使用主动学习技术,综合机器学习的高效性和人检查数据的可靠性,使得数据清洗过程高效且具有一定可靠性。同时,为了减少机器学习不可靠的修改建议,降低人检查数据的消耗,以及降低正确数据被修改错误的风险,本文在尽可能少修改数据的前提下,综合机器学习概率分类特性(本文采用朴素贝叶斯分类器),引入确定度指标实现以上目标。此外,本文还引入了确定度增益指标,用于评估机器学习预测值与原始数据的分歧程度,以此判定哪条数据优先交与人检查和清洗。将分歧大的数据清洗后反馈给机器学习预测模型,使其不断学习未掌握的概率分布,提升预测的准确度,以此达到降低人参与度的目的。本文还在多个属性可能存在脏数据的背景下,完成多属性清洗模型的建模。
本文在理论基础上,使用Python语言、基于Flask框架编写了数据清洗系统:基于主动学习的数据清洗系统( The Active Learning Based Data Cleaning System,简称ADC)。ADC系统具有界面简洁,功能清晰,操作便利等优点。
实验结果表明,本文方法可以方便快捷地完成数据清洗任务,最终使数据质量有明显提升,且清洗过程中人的参与度不高。另外,本文还从多角度验证了本方法的有效性,同时在使用相同数据的情况下与使用机器学习的相关数据清洗研究对比,验证本方法是更有效的。