重复记录检测相关论文
随着科学、技术和工程的迅猛发展,近20年来,许多领域诸如光学观测、光学监控、健康医护、传感器、用户数据、互联网和金融公司以及供......
该文在归纳、总结了数据质量问题和数据清洗相关研究的现状的基础上提出一个可扩展的数据清洗框架的定义和一个检测多语言数据重复......
数据质量管理如同产品质量管理一样贯穿于数据生命周期的各个阶段,在许多领域中,如商业、体育、音乐、旅游等,有大量的数据源提供......
在对网络交易中的信用主体进行信用评估时,需要对分散在各机构中的基础信用信息进行整合。在对信用信息的处理过程中,由于各机构对信......
如今,互联网技术的发展日新月异,互联网已经逐步渗透到了人们的生活之中,并成为了人们获取信息、传播消息的重要渠道。伴随着Web中......
随着信息化的高速发展和客观上硬件技术的有效支撑,使得数据集中的海量数据不免存在冗余、缺失、不确定数据和不一致数据等诸多情况......
重复记录检测问题已有半个世纪的研究历史,这个问题所具有的重要实际意义以及挑战性使得其一直是一个非常热门的研究方向,吸引了包括......
针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法.根据概念依赖图计算表的关键属性,并根......
针对数据规模的扩大,重复记录检测效率往往不能进一步提升的问题,提出一种粒子群优化BP神经网络的重复记录检测方法,充分利用了神经网......
船舶数据库中的记录具有一定的冗余特性,用于保持数据库的容错性,这样船舶数据库中存在许多重复记录,为数据库查询带来难题。为了......
为了提高数据库重复记录检测效果,提出了基于深度学习的数据库重复记录检测算法。首先分析当前数据库重复记录检测的进展,找到引起......
对联邦数字图书馆中重复元数据记录进行检测和管理,是保证元数据质量、提高联邦检索服务质量的关键。针对现有联邦数字图书馆中重复......
由于Deep Web数据规模巨大,数据质量高而且Web数据库数量和规模增长迅速,人们从中获取信息的需求日益强烈。然而Web数据库动态性高......
研究大型数据库重复记录检测与优化,利用Jaro算法以及TF-IDF算法计算大型数据库不同记录字段相似度量函数,所获取字段相似度量函数......
随着计算机网络和数据库技术的飞速发展以及人们获取数据手段的多样化,我们所拥有的数据量急剧增加。但是基于劣质数据的决策是不......
对数据清洗问题进行综述。介绍数据清洗问题产生的背景和国内外研究现状。给出数据清洗的定义和对象,说明数据清洗的基本原理、模......
信息处理技术的不断变革,使每个行业都拥有了许多计算机信息系统,同时也产生了大量的数据。因此能够使数据有效地进行组织的日常运......
移动互联网颠覆了人们的生活方式,互联网+商户为吸引客户消费出台各种优惠信息,但是这些信息散落在互联网各处,用户有时需要同时安......
企业信息化的高速发展使得各企业都积累了大量的数据,他们都在绞尽脑汁的试图将这些数据应用到自身发展的决策中.数据挖掘的目的是......
随着万维网的迅速发展,Web已成为最大的百科全书式的信息库。日益发展的信息技术和大规模数据集成的趋势迫切的需要高质量的数据做......
随着Internet的飞速发展,网络迅速成为一种重要的信息传播和交换的手段,在Web上出现了丰富的数据资源。为了更好的实现Web信息的共......
随着互联网技术日新月异的发展,Web已经成为一个巨大的信息源,拥有着海量数据。这些数据具有重要的价值,目前许多应用领域,如市场......
为了解决传统字段匹配算法未能根据数据源数据特征进行匹配函数调整的缺陷,提出了一种基于关联token操作和支持向量机的自适应字段......
文章对构建数据仓库中的数据清洗研究现状进行了论述。介绍了脏数据的类型与出现原因、数据清洗在国内外的研究现状、定义和对象,......