一种提高相似重复记录检测精度的方法

来源 :计算机应用与软件 | 被引量 : 21次 | 上传用户:lwhxtq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何消除数据源中的相似重复记录是数据清理研究中的一个重要问题。为了提高相似重复记录的检测精度,在相似重复记录检测算法的基础上,采用等级法为记录各字段指定合适的权重,从而提高了相似重复记录的检测精度。最后,以一个实例验证了该方法的效果。
其他文献
图像分割技术是由图像处理到图像分析的关键步骤,应用基本的分割技术很难得到精确的阈值。研究了三维图像分割技术,提出一种自适应阈值三维图像分割技术,先对三维图像分解成一系列二维图像,根据小波变换理论,分析不同分辨率下小波变换的特点,确定分割区域数和分解层次,再由低分辨率开始对每幅二维图像直方图进行小波变换,逐步到最高分辨率,并根据不同分辨率下小波变换结果,由粗到细地自动设定精确的阈值分割每幅二维图像,
【正】 几乎所有的雨都是酸性的,并且自从出现早期工业以来一直如此。而目前的酸雨这一名词则是指酸性大于pH5.7的雨水而言。pH5.7这一酸度恰好是雨水与空气中的二氧化碳反应
贵州提出以'工匠精神'打造'黔系列'民族文化产业品牌,通过全力打造'黔系列'民族文化产业品牌,促进民族文化的传承和发展。在黔东南州丹寨县南皋乡石
提出一种新的描述纹理的方法———视点切割(V iewpoint Slic ing)模式。方法依据视觉心理学的理论,提取人的视觉系统对之敏感的纹理信息,如纹理的全局灰度极值点,局部灰度极值点,基元的边缘等特征。方法可以描述基于统计的方法无法适用的基元比较大的纹理,也可以有效描述复杂的自然纹理。详细讨论了方法的有效性,并用提取的纹理特征进行纹理分类实验,在B ro-datz纹理全集上达到了96.7%的
探索以函数为载体,告知两个函数值相等,求自变量差或积的取值范围问题的求解策略,以期提高复习备考效益,提高数学核心素养.
尺规作图是初中平面几何中的重要知识,是中考的热门题型.本文阐述了用多种方法过圆外一点作圆的切线,对学生的数学知识、方法、经验和思维能力都有一定的要求.通过尺规作图既
随着我国老龄化程度的加剧,养老服务的供需矛盾越来越大,政府积极和社会资本合作,采用PPP模式,使更多的资本进入养老服务市场,减轻政府压力。本文在分析医养结合PPP模式的基
图像的Freem an链编码是对图像边界的描述,这种链编码给我们图形一些基本特征,正在被广泛地应用到图像处理和图像识别中。本文给出了二值图像区域的标定方法。对于八近邻的图像,分别建立了一组最小的完备图。利用图像标定的基本图,为二值图像边界的识别构造了一个自动机,自动机的输出就是Freem an链编码,为二值图像区域的标定提供了一个有效算法。
期刊
P2P系统的一个显著特点就是,其系统中的节点可以自由地加入和退出,因此P2P系统中的节点存活时间存在很大的差异性。通过对P2P系统中节点会话时间特性的分析,提出一种改进型的Chord(Chord是一种P2P覆盖协议),并且,通过对原Chord协议和改进型Chord的模拟实验,证明了改进型的Chord可以获得更好的系统稳定性和更高的路由效率。