多数据源近似重复记录增量式识别方法仿真 - 开源共享论文下载平台 - 信丰网

多数据源近似重复记录增量式识别方法仿真

来源 :计算机仿真 | 被引量 : 0次 | 上传用户：hgscmey

【摘要】

：

在进行数据录入的过程中,经常会发生录错、数据源表现各异等状况。因而针对传统的多数据源近似重复记录增量式识别方法存在执行时间较长、查准率、查全率较低等问题,提出了一种基于MapReduce编程模型的多数据源近似重复记录增量式识别方法。引用基本近邻排序方法将数据集中的记录按照设定的关键字进行排序,在排序后的数据集上移动一个固定大小的窗口,检测该窗口内的记录,并判断它们是否匹配。匹配结果通过MapRed

【作者】

：

蒙芳翟建丽

【机构】

：

广东工业大学华立学院

【出处】

：

计算机仿真

【发表日期】

：

2020年08期

【关键词】

：

多数据源近似重复记录增量式识别方法 Multiple data sourcesApproximate duplicate recordIncremental

【基金项目】

：

基于开方式虚拟实验室计算机仿真学科改革与研究(2015GXJK185)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在进行数据录入的过程中,经常会发生录错、数据源表现各异等状况。因而针对传统的多数据源近似重复记录增量式识别方法存在执行时间较长、查准率、查全率较低等问题,提出了一种基于MapReduce编程模型的多数据源近似重复记录增量式识别方法。引用基本近邻排序方法将数据集中的记录按照设定的关键字进行排序,在排序后的数据集上移动一个固定大小的窗口,检测该窗口内的记录,并判断它们是否匹配。匹配结果通过MapReduce编程模型进行排序整合,采用跳动窗口进行重复数据记录识别,获取最终的识别结果。实验结果表明,所提方法

其他文献

布地奈德联合特布他林治疗儿童哮喘的疗效观察

目的：探讨布地奈德联合特布他林治疗儿童哮喘的临床疗效。方法选取我院2012年1月—2013年1月期间收治的儿童哮喘患者92例，随机分为观察组和对照组各46例，观察组患儿采用布地奈德

期刊

儿童哮喘布地奈德特布他林疗效

身份认同的内在二维图式——以鄂西北HL村艾滋病人的身份认同研究为例

根据身份认同的定义,个体身份认同具有内在二维属性,即对身份角色的确认和对所属群体的情感归属。而这两个维度并不一定是同时发生,也不一定向同方向发生转化。而身份认同的

期刊

身份认同内在二维性艾滋病人Identity Inherent Two-dimensionality ADIS Patients

依赖与抗争

本论文主要探讨冷战后东盟国家(以下简称“东盟”)对美国的战略及这些战略对中国的影响和我国的对策。笔者认为，冷战后东盟逐渐采取的对美战略和政策包括：(1) 军事安全上“拉住

学位

东盟美国中国依赖抗争威胁平衡经济相互依赖

浅析传统价值观在高校社会工作中的运用

西方高校社会工作发展的背景与中国社会现实存在较大的差异，直接运用西方社会工作的理论和方法在中国高校开展工作存在诸多难题。中国传统价值观与高校社会工作基本理念具有相

期刊

传统价值观高校社会工作本土化Traditional Values College＇s Social Work Local-ization

慢性宫颈炎的临床护理效果观察与研究

目的观察慢性宫颈炎的临床护理效果。方法选取72例门诊慢性宫颈炎患者,并根据门诊就诊顺序,按照单双号法的原则,将其随机分为观察组和对照组各36例。对照组患者给予传统的常

期刊

宫颈炎慢性LEEP刀护理

AVE-762尿液有形成分分析仪结果影响因素分析

尿液有形成分分析是临床对泌尿系统疾病诊断、治疗和预后判断的重要实验室检查项目。我科于2006年7月购置了一台AVE-762尿液有形成分分析仪，该仪器具有显微镜数码照像技术和计

期刊

AVE-762尿液有形成分分析仪影响因素

城管执法冲突的三方感知与对策建议——以昆明市五华区为例

从1997年全国第一个综合执法试点建立到现在,城管队伍已经经过了15年的发展。新闻媒体上越演越烈的城管执法冲突事件,给这个直面大众的城市管理部门蒙上了一层阴影。本文以昆

期刊

城管执法冲突感知对策Urban Management Law-enforcement Perception of Conflicts Countermea

其他学术论文