论文部分内容阅读
在当今信息化的时代,每天产生海量数据,大量劣质数据普遍存在于数据库管理系统中。劣质数据的存在给人们和企业的决策带来了极大不便,每年给社会带来巨大损失,因而数据质量日益成为人们和企业关注的问题。数据清洗是目前处理劣质数据的主要方式之一,大部分数据清洗的方法集中在通过启发式方法选择使数据改变最小修复,但算法时间复杂度高且不能保证修复的正确性。本文我们提出了一种基于用户反馈的主动学习模型,并将该模型应用于一致性数据修复和多源真值发现。基于用户反馈的修复技术不但能用最小训练集得到更为精确的机器学习模型,同时能使数据修复的正确性得到显著提高。在做一致性数据修复时,我们设计了一种基于用户反馈的一致性数据修复框架,这个框架通过交互过程将数据质量规则(,和)和用户反馈结合在一起。首先,为了对每一个元组所有潜在的脏属性产生候选修复,我们提出了基于遗传算法的优化模型。然后我们创建了带有委员会的贝叶斯机器学习模型预测这些修复的正确性,依据不确定得分对这些修复进行排序,选取若干最不确定的修复反馈给用户标记,并将新标记的修复加入到训练集中对学习模型进行重训练,从而改善学习模型预测的正确性。用户反馈机制用于决定学习模型是否准确,同时检查优化模型产生候选修复。最后,我们在真实世界数据集的实验表明数据质量有了显着改善。在做多源真值发现时,我们先给出最基本的投票算法,然后提出了基于用户反馈朴素真值发现框架。该框架将用户反馈的主动学习模型和算法组合起来,由算法产生候选真值,通过用户反馈的主动学习模型对这些真值进行确认,从而使得真值发现正确率得到大幅度提高。但是框架没有考虑数据源之间拷贝的情况和数据源本身的真实度关系,我们提出了更为完整的基于用户反馈真值发现框架。这个框架首先通过由数据源真实度计算出的值自信度来产生候选真值。然后对所有候选真值进行分组排序,将收益最大的分组推送给用户反馈的主动学习模型。学习模型对这些真值进行确认,并将确认正确的候选真值加入到正确数据源中。最后,通过参数调整管理器对数据源的真实度和值的自信度进行调整,从而使得下次迭代中产生的候选真值更加可靠。实验结果表明框架在做真值发现时准确率有着显著提高。