多数据源近似重复记录增量式识别方法仿真

来源 :计算机仿真 | 被引量 : 0次 | 上传用户:hgscmey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在进行数据录入的过程中,经常会发生录错、数据源表现各异等状况。因而针对传统的多数据源近似重复记录增量式识别方法存在执行时间较长、查准率、查全率较低等问题,提出了一种基于MapReduce编程模型的多数据源近似重复记录增量式识别方法。引用基本近邻排序方法将数据集中的记录按照设定的关键字进行排序,在排序后的数据集上移动一个固定大小的窗口,检测该窗口内的记录,并判断它们是否匹配。匹配结果通过MapReduce编程模型进行排序整合,采用跳动窗口进行重复数据记录识别,获取最终的识别结果。实验结果表明,所提方法
其他文献
目的:探讨布地奈德联合特布他林治疗儿童哮喘的临床疗效。方法选取我院2012年1月—2013年1月期间收治的儿童哮喘患者92例,随机分为观察组和对照组各46例,观察组患儿采用布地奈德
构建一套适用的实践性教学质量评估指标体系,对于全面、公正地评价学生的专业实习成绩,帮助学生充分认识自我是极为有利的。实践性教学质量评估体系应当采取全面考评的方式,结合
2009年的中国社会工作以一种厚实和大气沉淀在历史的记忆中。社会工作的发展如五月的墨绿灿烂着金融风暴虐过的大地,人们感知到了社会工作介入社会生活的力量和温情——黄浦江
根据身份认同的定义,个体身份认同具有内在二维属性,即对身份角色的确认和对所属群体的情感归属。而这两个维度并不一定是同时发生,也不一定向同方向发生转化。而身份认同的
本论文主要探讨冷战后东盟国家(以下简称“东盟”)对美国的战略及这些战略对中国的影响和我国的对策。笔者认为,冷战后东盟逐渐采取的对美战略和政策包括:(1) 军事安全上“拉住
西方高校社会工作发展的背景与中国社会现实存在较大的差异,直接运用西方社会工作的理论和方法在中国高校开展工作存在诸多难题。中国传统价值观与高校社会工作基本理念具有相
目的观察慢性宫颈炎的临床护理效果。方法选取72例门诊慢性宫颈炎患者,并根据门诊就诊顺序,按照单双号法的原则,将其随机分为观察组和对照组各36例。对照组患者给予传统的常
目的观察地塞米松联合昂丹司琼对预防腹腔镜胆囊切除术术后恶心呕吐的防治效果。方法随机将120例在静吸复合全麻下行腹腔镜胆囊切除术的患者分为四组:对照(c)组于麻醉诱导前(T1)和
尿液有形成分分析是临床对泌尿系统疾病诊断、治疗和预后判断的重要实验室检查项目。我科于2006年7月购置了一台AVE-762尿液有形成分分析仪,该仪器具有显微镜数码照像技术和计
从1997年全国第一个综合执法试点建立到现在,城管队伍已经经过了15年的发展。新闻媒体上越演越烈的城管执法冲突事件,给这个直面大众的城市管理部门蒙上了一层阴影。本文以昆