基于众包的数据清洗关键技术的研究

被引量 : 0次 | 上传用户:cjz1107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今信息化时代,由于互联网的兴起和产业的数字化,导致各种数据量的急剧增长,数据的重要性越来越不可忽视。糟糕的数据质量对数据分析数据挖掘等都造成一定的影响,利用数据清洗来处理劣质数据对数据进行预处理成为必要的手段之一。然而目前的数据清洗方法往往计算难度比较大,精度不够高,甚至一部分问题是NP-hard难题或者是根本不可计算的。另外缺少充分的知识也是目前很多数据清洗算法面临的一个问题,没有额外知识的加入,规则定义的不够全面,都将导致数据清洗的结果精确度不够高。本文将主动学习与众包结合起来进行数据清洗,通过众包确认来保证一定的精确度,同时结合主动学习框架来减少众包的开销。分别针对数据清洗领域中的真值发现问题,缺失值填充问题,实体识别问题提出了基于众包的主动学习算法,最后结合这三种修复给出了一个基于众包的数据清洗系统。本文的主要贡献主要分为三个方面:第一,设计了一个满足数据清洗的问题特点的主动学习模型,将以往多应用在机器学习领域加快分类的主动学习机制应用在数据清洗领域;第二,在数据清洗的过程中引入众包平台来加快原有模型的修复速度,增加模型修复的正确性;第三,一个基于众包的数据清洗系统。每个方面的主要内容阐述如下。首先,本文为数据清洗问题设计了两种适用于不同场合的主动学习模型,分别为直接主动学习模型和交互主动学习模型,以少量的有标记样本作为初始训练集对大量数据进行清洗,选出价值更高的一类样本利用众包平台进行人工标记。在提高数据清洗准确率的同时最小化众包平台的开销。其次,本文首次将众包平台引入数据清洗领域,对真值发现,实体识别,缺失填充等问题进行研究,利用众包平台提供充分的知识获取真值。最后,我们提出了基于众包的数据清洗系统,解决了现有系统中领域知识不充分,处理劣质数据不全面的问题。采用人机结合的方式对劣质数据进行清洗,将基于不同劣质数据类型的清洗方法整合到一个自动清洗模块中。系统为用户提供了手动选择众包记录和结果二次众包的功能,将清洗结果的每一步及时的反馈给用户,加强了用户与系统的互动,具有良好的可用性。
其他文献
随着经济的发展,科学技术水平大大提高,已步入信息化的时代。目前,网络技术的运用渗透在各个领域,与人类的生活息息相关。电子商务在销售领域的大力兴起,电子金融在金融行业
美国对关键基础设施安全的关注由来已久。20世纪90年代,62、63号总统行政令的颁布奠定了美国关键基础设施立法、政策保护体系的基础。"9·11"事件后,美国先后出台多部法律、
<正>奇瑞汽车,这个从"小草房"走出的企业,仅仅十余年时间,成为中国自主品牌的旗帜性企业,在海外市场上也受到越来越多的青睐。金弋波,作为奇瑞汽车的"老人儿",和奇瑞一路走来
利用来自苹果的8对EST-SSR标记对48份梨(Pyrus)种质资源进行遗传多样性研究,以分析其在梨属植物上的通用性。结果表明,8对EST-SSR引物在供试材料上均能扩增出与苹果大小相似的
长征精神是中国共产党特有的政治优势和宝贵的精神财富。回顾党的历史,长征精神激励了一代又一代共产党人冲锋在前、吃苦在前、奉献在前。但是随着时代的发展,面对市场经济带
北宋朱长文所著《琴史》一书究竟应当看做是“琴谱”,或是“音乐家传记”,还是“琴史专著”?学者们对此见仁见智,各有侧重,且长期无人予以专门论定,实为学术界之缺憾。爰及于
针对确定排土场极限堆高方法的缺陷,论述了排土场荷载作用下平缓表土基底的作用机制,导出了临界表土厚度h_0的算式及排土场极限高度确定的通用方法与计算公式,指出了目前沿用基底表
从焊接生产市场竞争的角度来看,焊接生产的柔性化与集成化成为焊接生产自动化的一个必然趋势。机器人的在线示教编程不但效率低,而且占用生产时间,难以与其他系统实现无缝集成。
本文通过对食品行业中的家族企业与供应商的关系以及供应商选择时影响因素的实证调查,发现家族企业对供应商选择的最主要考虑因素还是价格和品质的保证,他们与供应商的关系仍
通过分析冗余结构系统环境载荷和元件强度分散度对系统各失效模式之间相关程度的不同影响,阐明了元件强度变量相互独立时冗余系统共因失效的发生机理,揭示了共因失效这种系统