论文部分内容阅读
随着数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大。在建立数据仓库的过程中,需要从各种异构的数据源导入大量的数据。这些数据来源于不同的渠道导致相似重复记录增多,严重影响了数据利用率和决策质量。因此,相似重复记录的检测和清洗已经成为数据仓库、数据挖掘等领域的热点研究问题。本文详细阐述了数据清洗的相关理论,分析了数据清洗的必要性以及国内研究现状。重点针对海量数据中相似重复记录检测的原理、方法、评价标准以及基本流程进行了深入分析和总结。主要研究工作如下:(1)针对DBSCAN算法聚类时会把相似重复记录聚在较少的几个类中这一问题,通过在随机抽取的样本中引入动态随机函数不断调整密度半径找出最优的全局半径,改进了算法性能。(2)针对海量数据的相似重复记录检测问题,给出了基于熵特征优选分组聚类相似重复记录检测的方法。通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用改进的DBSCAN聚类算法进行相似重复记录的检测。实验表明此算法有较高的检测效率,但检测精度不够理想。(3)给出基于N-Gram的二次聚类方法,提高相似重复记录检测的精确度。首先对每个DBSCAN聚类产生的相似重复记录簇进行二次聚类,然后对每个簇中的记录进行两两分别互相比较,清除了不正确的相似重复记录,实验分析表明二次聚类方法有效地提高了检测精度。(4)搭建了一个基于多Agent的三层数据清洗系统模型。讨论了模型的通信和运行过程。这一模型弥补了传统数据清洗的缺陷和不足,而且分层管理不同任务的工作,在很大程度上提高了数据清洗的智能性和高效性,减少了人工的参与。