海量数据相似重复记录检测的研究

被引量 : 8次 | 上传用户:boat_y
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大。在建立数据仓库的过程中,需要从各种异构的数据源导入大量的数据。这些数据来源于不同的渠道导致相似重复记录增多,严重影响了数据利用率和决策质量。因此,相似重复记录的检测和清洗已经成为数据仓库、数据挖掘等领域的热点研究问题。本文详细阐述了数据清洗的相关理论,分析了数据清洗的必要性以及国内研究现状。重点针对海量数据中相似重复记录检测的原理、方法、评价标准以及基本流程进行了深入分析和总结。主要研究工作如下:(1)针对DBSCAN算法聚类时会把相似重复记录聚在较少的几个类中这一问题,通过在随机抽取的样本中引入动态随机函数不断调整密度半径找出最优的全局半径,改进了算法性能。(2)针对海量数据的相似重复记录检测问题,给出了基于熵特征优选分组聚类相似重复记录检测的方法。通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用改进的DBSCAN聚类算法进行相似重复记录的检测。实验表明此算法有较高的检测效率,但检测精度不够理想。(3)给出基于N-Gram的二次聚类方法,提高相似重复记录检测的精确度。首先对每个DBSCAN聚类产生的相似重复记录簇进行二次聚类,然后对每个簇中的记录进行两两分别互相比较,清除了不正确的相似重复记录,实验分析表明二次聚类方法有效地提高了检测精度。(4)搭建了一个基于多Agent的三层数据清洗系统模型。讨论了模型的通信和运行过程。这一模型弥补了传统数据清洗的缺陷和不足,而且分层管理不同任务的工作,在很大程度上提高了数据清洗的智能性和高效性,减少了人工的参与。
其他文献
随着新课程改革的深入,阅读在语文教学中的地位越来越重要。学生的阅读一般可以分为课内阅读和课外阅读。相对于课内阅读,课外阅读的时间和内容更加丰富,学生阅读能力的提高
中国IT行业网关产品最近十年经历了突飞猛进的发展,网关产品国内销售额在2009年已经接近千亿大关,超过德、英、意、法、俄跃居世界第三,亚洲第二的位置。这期间中国IT行业获
国内地铁建设已进入快速发展阶段,中国近十年修建的线路长度相当于世界其他国家修建线路长度长度的总和。地铁系统的建设对城市发展格局形态、人口分布、经济发展及城市相关
近年来我国的房地产土地增值税成了一个热点问题。房价飞速上升,国家通过一系列宏观调控的手段也无法有效的控制。今年国务院发布了针对房地产的国十条,其中对于税收宏观调控
纪检监察工作是科研院所日常工作的重要组成部分。本文概述了科研院所纪检监察工作的特点、现状及面临的问题,以中国医学科学院医学生物学研究所工作实践为例,对科研院所开展
本文回顾性介绍高血压脑出血围手术期患者心理护理、病情观察、手术前配合医生完善各项检查,手术后呼吸道管理、引流管护理、高热、营养的护理及康复护理的方法.
感知雷达概念的提出,指明了未来雷达的发展趋势——智能化。在此概念下,雷达能够根据环境变化自适应地改变发射波形,从而对特定目标进行有效、可靠且稳健地观测,更加适应日益
城镇化是社会经济发展的必然选择,是世界发展的普遍趋势和潮流,是人类生活进步的象征。城镇化问题越来越成为关注对象。我国的城市化水平从1978年改革开放之后持续上升,目前
关于金庸作品的研究很多,内容涉及文化、政治、社会等等一系列的层面。可是关于师徒伦理叙事方面的研究却似乎还处于比较滞后的状态。师徒伦理是中国传统文化中的一个重要的
进入21世纪,高技术、信息化成为当前战争尤其是局部战争的主要形态,相应地人民防空在局部战争和维护国家安全中的战略地位越来越重要。再者,由于各种自然和人为灾害频频发生,