论文部分内容阅读
随着数据仓库技术与数据挖掘技术的广泛应用和发展,企业管理人员对决策分析有了更高的要求。企业的中高层领导目前更多关注的是如何能够在现有大量数据的背后挖掘到有用的隐藏信息,以及如何利用这些信息指导企业未来的发展。而要在基于历史的数据仓库的基础上为企业将来的发展作决策和预测时,数据的质量问题就变的非常关键。根据“垃圾进,垃圾出”原理,存在缺失数据、噪声数据、不一致数据和冗余数据等质量问题的数据会导致漫长的响应时间和昂贵的操作费用,并且会影响从数据中导出规则的准确性和挖掘出的模式的正确性,进而使决策支持系统产生误导决策的错误分析结果,影响信息服务的质量。因此,数据清洗正在成为数据挖掘与数据仓库领域的一个重要研究课题。 本文首先对数据清洗的相关理论知识进行了详细的介绍,介绍了数据清洗的概念、研究背景及意义以及国内外的研究与应用现状。并对数据清洗的定义与基本流程进行了总结,对缺失数据填补的常用算法以及噪声数据检测的常用算法进行了详细阐述。重点对缺失数据填补与噪声数据检测的各类算法进行了深入的研究,提出了相应的改进算法,并在此基础上设计了一个数据清洗系统。实验与实践表明,所提出的改进算法均具有较好的效果,设计并实现的数据清洗系统具有很高的实用价值。 本文的主要工作有: 1、提出基于近邻噪声处理的KNN缺失数据填补算法。该算法通过比较待填补缺失数据每个最近邻的真实近邻程度能够有效地识别潜在的噪声最近邻,最后使用所有非噪声最近邻对待填补缺失数据进行填补,从而消除了KNN缺失数据填补算法效果受噪声最近邻的影响。实验表明该算法具有较高的填补准确性。 2、提出基于双聚类的缺失数据填补方法。该算法首先利用双聚类簇内平均平方残值越小簇内数据相似性越高的特性,将缺失数据的填补问题转化为求解特定双聚类簇最小平均平方残值的问题,进而来对数据集中缺失元素进行填补。除此之外,该算法利用二次函数求解极小值的思想对包含有缺失数据的特定双聚类簇最小平均平方残值的问题进行求解,并进行了数学上的分析证明。实验表明该算法具有较高的填补准确性。 3、提出基于DBSCAN与SVDD的噪声数据检测方法。该算法首先通过经典的DBSCAN算法首先对数据聚类,剔除DBSCAN算法识别出的噪声数据点。然后根据聚类的结果对每个类分别使用SVDD算法进行训练,得到每个类别对应的判别模型。然后使用得到的所有模型依次对数据集中的所有非噪声点进行分类,将数据集中不属于任何类别的数据视为噪声并剔除。实验表明该算法具有较好的噪声检测效果。 4、提出基于快速搜索密度峰值聚类与信息熵的噪声数据检测算法。该算法首先通过快速搜索密度峰值聚类算法对原始数据集进行聚类,移除快速搜索密度峰值聚类算法识别出的噪声数据样本。然后根据聚类结果分别为每一个类构建矩形窗格并进行网格划分,将类中所有数据样本投影到网格后计算类的信息熵,并将类中局部密度最低的部分数据样本依次从类中删除,计算每个数据样本删除前与删除后类的信息熵变化,将删除后使类信息熵变化明显的数据样本当作噪声。实验表明该算法具有较好的噪声检测效果。 5、结合前面的研究工作设计并实现了一个可扩展与可交互的数据清洗系统,该数据清洗系统主要有数据预处理、缺失数据填补、噪声数据检测、关联分析四大功能模块,该系统目前已经投入到实际应用当中,并且取得了较好的效果。