相似重复数据检测的数据清洗算法优化

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:c948221078
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据一直是各大企业竞争的对象,而企业在采集、处理以及最终录入数据库的数据中往往存在着相似重复的数据,这些数据也即“脏数据”。脏数据如果不进行处理,势必会影响后续数据的操作,最终影响到数据的质量。数据清洗是处理脏数据、提高数据质量的热门技术手段,而其中相似重复数据检测更是数据清洗中的重要方面,比如堤防工程的数据存在很多地名、经纬度、砖孔数据等等,录入到数据库时相似重复度很高。目前针对重复数据检测应用最多的是SNM(基本邻近有序法)算法,主要是先将原有的数据集进行排序,再比较排序后相邻数据的相识度。但这种算法
其他文献
以引进到甘肃河西走廊地区的13个紫花苜蓿品种先牧不倒翁、先牧抗冻星、巨能Ⅱ、巨能Ⅶ、前景、WL319HQ、WL366HQ、WL363HQ、WL354HQ、WL298HQ、WL440HQ、WL353LH和WL326GZ作
通过对浦城县南浦溪流域的水土保持调查分析与评价,针对流域水土流失逐渐恶化问题作深入探讨,并提出了该流域水土保持的主要措施与对策。
在5.12汶川特大地震抗震救灾中,国家测绘部门设计和组织实施了以数据成果服务、专用系统服务和专题制图服务为核心的基础地理信息综合应急服务。其是针对汶川震区地形特点和抗
文章论述了工程机械维修在国民经济中的重要地位、从维修思想,维修制度,检测技术,修复技术,建立维修市场,培养高素质的维修人才等方面阐述了我国工程机械维修的发展趋向。
近年来,生物质气化技术由于其能量转化效率高,技术应用不受地区和气候等因素限制,原料适用性广的特点得到了大力发展,生物质能源的商业化应用已经成为该领域的研究热点,本文
近十年来,学术界在广东南江文化学理、文化人物、文化民俗及南江文化现代化走向等方面的研究取得了显著成果。对这些成果进行全面系统的梳理、总结,不仅会丰富对南江文化的认
通过对电气化铁道牵引变电所中动态无功补偿装置的分析和比选,分析计算动态无功补偿装置的主要技术参数,在石太线阳太段牵引变电所改造工程中采用过零投切型MCR动态无功补偿
根据“十一五”(2006—2010年)期间建阳市的环境质量监测数据,对“十一五”期间建阳市环境质量状况进行了分析。对地表水、环境空气、环境噪声的质量进行了分析,提出改善环境质量
<正>在深化学校课程改革、全面落实素质教育的大背景下,建设学校课程领导力,校本课程建设的本质坚守与误区破解显得尤其重要。一、认识误区和行为偏差校本课程建设是我国新一
文章在介绍木芙蓉形态特征和生长习性的基础上,阐述木芙蓉在城市绿化中的价值与应用,以供参考.