论文部分内容阅读
当今信息化时代,由于互联网的兴起和产业的数字化,导致各种数据量的急剧增长,数据的重要性越来越不可忽视。糟糕的数据质量对数据分析数据挖掘等都造成一定的影响,利用数据清洗来处理劣质数据对数据进行预处理成为必要的手段之一。然而目前的数据清洗方法往往计算难度比较大,精度不够高,甚至一部分问题是NP-hard难题或者是根本不可计算的。另外缺少充分的知识也是目前很多数据清洗算法面临的一个问题,没有额外知识的加入,规则定义的不够全面,都将导致数据清洗的结果精确度不够高。本文将主动学习与众包结合起来进行数据清洗,通过众包确认来保证一定的精确度,同时结合主动学习框架来减少众包的开销。分别针对数据清洗领域中的真值发现问题,缺失值填充问题,实体识别问题提出了基于众包的主动学习算法,最后结合这三种修复给出了一个基于众包的数据清洗系统。本文的主要贡献主要分为三个方面:第一,设计了一个满足数据清洗的问题特点的主动学习模型,将以往多应用在机器学习领域加快分类的主动学习机制应用在数据清洗领域;第二,在数据清洗的过程中引入众包平台来加快原有模型的修复速度,增加模型修复的正确性;第三,一个基于众包的数据清洗系统。每个方面的主要内容阐述如下。首先,本文为数据清洗问题设计了两种适用于不同场合的主动学习模型,分别为直接主动学习模型和交互主动学习模型,以少量的有标记样本作为初始训练集对大量数据进行清洗,选出价值更高的一类样本利用众包平台进行人工标记。在提高数据清洗准确率的同时最小化众包平台的开销。其次,本文首次将众包平台引入数据清洗领域,对真值发现,实体识别,缺失填充等问题进行研究,利用众包平台提供充分的知识获取真值。最后,我们提出了基于众包的数据清洗系统,解决了现有系统中领域知识不充分,处理劣质数据不全面的问题。采用人机结合的方式对劣质数据进行清洗,将基于不同劣质数据类型的清洗方法整合到一个自动清洗模块中。系统为用户提供了手动选择众包记录和结果二次众包的功能,将清洗结果的每一步及时的反馈给用户,加强了用户与系统的互动,具有良好的可用性。