对基于MPN的相似重复记录识别算法的改进 - 开源共享论文下载平台 - 信丰网

对基于MPN的相似重复记录识别算法的改进

来源 :微计算机信息 | 被引量 : 13次 | 上传用户：wanxlm

【摘要】

：

相似重复记录识别是数据清理中的一个关键问题。文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前先过滤前面的公共子串,减少了相似记录比较的开销。文章最后给出了改进算法与原算法的对比试验结果。

【作者】

：

刘伟曹先彬

【机构】

：

合肥中国科技大学

【出处】

：

微计算机信息

【发表日期】

：

2005年14期

【关键词】

：

数据清理相似重复记录字符串匹配 MPN 传递闭包 Data cleaning Approximately duplicate databaserecord

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

相似重复记录识别是数据清理中的一个关键问题。文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前先过滤前面的公共子串,减少了相似记录比较的开销。文章最后给出了改进算法与原算法的对比试验结果。

其他文献

含有Fibonacci数的一个组合恒等式及其推广

由Fibonacci数的一种组合解释,得出一个含有Fibonacci数的组合恒等式,并推广到有普遍意义的、含有k-bonacci数的组合恒等式.

期刊

FIBONACCI数k—bonacci数组合恒等式Fibonacci numbers k- bonacci numbers combinatorial

变频器通讯在喷油泵试验台中的设计与实现

简述了喷油泵试验台的基本结构及控制系统的部分功能.分析了采用变频器通讯方式进行电机控制及调速的优点:详细介绍了在喷油泵试验台异步电机调速中,LG变频器与单片机通讯的

期刊

喷油泵试验台异步电机调速变频器通讯协议单片机Spray fuel pump testing platform Speed adjustments o

基于RS-485总线和USB总线技术的远程分布式导弹性能检测系统设计与实现

介绍了基于RS-485和USB总线技术的导弹远程分布式性能检测系统的软硬件实现。系统可以充分发挥两种总线的优点,能够进行高速、远距离、多路信号采集与传输。系统对于恶劣环境条件下导弹的性能检测,具有可靠性好、整体性能稳定等优点。

期刊

远程分布式导弹性能检测系统设计RS-485总线USB总线信号采集虚拟仪器RS-485 bus USB bus performance measu

一类基于第三十一家族的LA-群

利用群的扩张理论对p6阶群椎31（16）进行了推广，得到了一类新的P-群，给出了它的一些性质，特别地验证了它是LA-群。

期刊

有限P群自同构群自由群LA-猜想阶finite groupautomorphism groupfree groupLA-conjectureo

基于C＋＋ Builder与LabWindows／CVI平台的数据采集处理系统的研究与应用

本文介绍了一种基于Borland C++Builder与LabWindows/CVI平台的数据采集与处理系统,该系统应用于对滚动轴承的故障信号进行数据采集与分析处理.用BorlandC++Builder语言编写

期刊

数据采集系统数据处理系统C++BUILDERLABWINDOWSCVI平台动态连接库vibration data acquiring data

韶州曹溪在禅宗发展中的重要地位和作用

惠能与韶州曹溪宿昔有缘,生在新州,得法黄梅,广州剃度,却在韶州曹溪行化四十多年,并把真身永久地留在了曹溪宝林寺。韶州曹溪是惠能黄梅求法的准备出发地,又是他回到岭南的首

期刊

韶州曹溪宝林寺南禅顿宗六祖惠能《坛经》禅宗祖庭

基于网络的战术导弹武器系统远程故障诊断技术研究

本文结合互联网技术与故障诊断技术,实现基于Web的战术导弹武器系统的远程故障诊断,使得故障诊断效率及资源利用率得到有效提高.

期刊

战术导弹远程故障诊断PHPAPACHEMYSQLPHP Apache MySQL tactical missile fault diagnos

虚拟仪器调用MessageBox函数的实现

虚拟仪器软件设计中以图形化语言LABVIEW为主,但在遇到LABVIEW不易实现的功能时,可通过在LABVIEW 中调用其他函数来实现.本文介绍了在LABVIEW中调用Win32 API MessageBox的方

期刊

虚拟仪器LABVIEWCLFWIN32APLMessageboxOVirtual Instrument LABVIEW CLF WIN32 A

共产党与孙中山的三民主义

三民主义是孙中山政治思想的精华.中国共产党在领导革命的过程中,接受、实践、发展了三民主义,建立了新中国,把中国推进到社会主义,已经实现和正在实现着孙中山振兴中华的伟

期刊

中国共产党孙中山"三民主义"Chinese Communist Party Sun Zhongshan Nationalism

其他学术论文