论文部分内容阅读
随着信息技术的飞速发展,决策人员在进行决策分析时对各方面信息和数据的依赖性越来越强,于是在数据库的基础上产生了满足决策分析所需要的数据环境—数据仓库。在构建数据仓库的过程中,其数据源是以异构形态分布的,这就使得导入数据仓库的数据存在问题,致使应用于数据仓库前端的决策支持系统的分析结果受到影响,从而影响决策支持系统的服务的质量。因此,企业数据质量管理正在获得越来越多的关注,数据清洗也正在成为数据仓库和数据挖掘乃至网络数据处理的一个重要课题,而相似重复记录的检测是完成数据清洗的关键。本文首先对数据清洗的知识进行了全面阐述,介绍了数据清洗的概念、意义和国内外研究现状,并对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析和总结。在此基础上,论文详细讨论了相似重复记录检测所用到的相关知识和基本算法,对字段匹配和记录的相似性进行了深入的研究,并针对各步中存在的问题进行了改进,相似重复记录检测过程中,应用DBSCAN聚类算法对数据集中的记录进行聚类,DBSCAN具有聚类快,抗噪声能力强,能够发现任意形状簇的优势,但在对记录中的字符型变量转换为空间中的向量坐标时,用到了字符的ASCII码,这样就会把本来不重复的记录归为一类,而且该聚类的特点,是根据区域的连通性来逐渐聚类,所以也会把一些记录区别比较大的记录也聚在同一个类中,在这种情形下采用pair-wise比较算法对聚类之后的每个类中的记录进行一次记录比较,以便更加准确的发现相似重复记录。用DBSCAN聚类算法和pair-wise算法(称为改进的算法)对一个大的数据集进行测试,结果表明准确率有了一定的提高。在本文的结尾,对所做的工作进行了总结,并提出了下一步的研究重点。