基于用户反馈数据清洗技术的研究

被引量 : 0次 | 上传用户:yiyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息化的时代,每天产生海量数据,大量劣质数据普遍存在于数据库管理系统中。劣质数据的存在给人们和企业的决策带来了极大不便,每年给社会带来巨大损失,因而数据质量日益成为人们和企业关注的问题。数据清洗是目前处理劣质数据的主要方式之一,大部分数据清洗的方法集中在通过启发式方法选择使数据改变最小修复,但算法时间复杂度高且不能保证修复的正确性。本文我们提出了一种基于用户反馈的主动学习模型,并将该模型应用于一致性数据修复和多源真值发现。基于用户反馈的修复技术不但能用最小训练集得到更为精确的机器学习模型,同时能使数据修复的正确性得到显著提高。在做一致性数据修复时,我们设计了一种基于用户反馈的一致性数据修复框架,这个框架通过交互过程将数据质量规则(,和)和用户反馈结合在一起。首先,为了对每一个元组所有潜在的脏属性产生候选修复,我们提出了基于遗传算法的优化模型。然后我们创建了带有委员会的贝叶斯机器学习模型预测这些修复的正确性,依据不确定得分对这些修复进行排序,选取若干最不确定的修复反馈给用户标记,并将新标记的修复加入到训练集中对学习模型进行重训练,从而改善学习模型预测的正确性。用户反馈机制用于决定学习模型是否准确,同时检查优化模型产生候选修复。最后,我们在真实世界数据集的实验表明数据质量有了显着改善。在做多源真值发现时,我们先给出最基本的投票算法,然后提出了基于用户反馈朴素真值发现框架。该框架将用户反馈的主动学习模型和算法组合起来,由算法产生候选真值,通过用户反馈的主动学习模型对这些真值进行确认,从而使得真值发现正确率得到大幅度提高。但是框架没有考虑数据源之间拷贝的情况和数据源本身的真实度关系,我们提出了更为完整的基于用户反馈真值发现框架。这个框架首先通过由数据源真实度计算出的值自信度来产生候选真值。然后对所有候选真值进行分组排序,将收益最大的分组推送给用户反馈的主动学习模型。学习模型对这些真值进行确认,并将确认正确的候选真值加入到正确数据源中。最后,通过参数调整管理器对数据源的真实度和值的自信度进行调整,从而使得下次迭代中产生的候选真值更加可靠。实验结果表明框架在做真值发现时准确率有着显著提高。
其他文献
构建生态补偿机制,还原生态以价值,不仅是环境降压的出口,而且有利于缩小区际差距,促进环境建设走可持续发展的道路,同时也符合构建和谐社会的精神。构建生态补偿机制应遵循
目的探讨急性缺血性卒中患者小脑和脑桥白质病变(WML)发生情况及其危险因素。方法选取2011年10月—2012年10月在我院住院的急性缺血性卒中患者206例,回顾性分析患者的MRI表现
TC4作为一种最常见、应用最为广泛的钛合金,其使用量已经占到全世界钛消费品的50%以上。钛合金的传统制造技术存在很多缺点,比如容易产生粘刀、崩刀,需要大型锻压设备,生产周期长
上世纪八十年代以来,我国建筑业发展非常迅速。建筑结构更复杂、功能更全面、施工过程更迅捷的建筑物比比皆是。然而,施工过程越来越复杂,导致几乎每个工程项目都蕴含着种类繁多
探讨了运用第二类拉格朗日方程解决非惯性系中完整力学系统动力学问题的基本思想和方法。
鉴于日益严格的环保和节能要求,二次再热技术成为了火力发电厂锅炉未来发展的主流方向。现从实例着手介绍了两种不同的吹管技术方案,分析比较了吹管流程布置和两种吹管技术的
<正>站在历史交汇点,中国高等财经教育必将实现新发展。我们要站在广阔经济舞台上,思考财经教育强国的发展与创新。高等财经人才培养和科学研究不仅面对眼前的挑战,更要着眼
技术创新已日益成为国内外企业发展的焦点话题,被视为企业获取竞争优势和能够持续发展的关键环节,但如何对企业的技术创新能力进行评估,或者说如何持续不断提高企业的技术创
文章探讨了在非金融领域利用博彩进行洗钱的问题。作者认为,公立彩票、灰色棋牌、地下私彩、网络赌博和境外赌博都可能成为洗钱的工具,而后两者因潜在可洗钱规模大、洗钱损耗
英汉两种语言中的相应词汇所涵益的语义范围往往各不相同,到底是“英宽汉窄”还是“汉宽英窄”,从宏观角度来下判断往往不能导出科学的结论,但若从微观角度、从不同的层面分