数据清洗算法研究与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:LI0888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据仓库技术与数据挖掘技术的广泛应用和发展,企业管理人员对决策分析有了更高的要求。企业的中高层领导目前更多关注的是如何能够在现有大量数据的背后挖掘到有用的隐藏信息,以及如何利用这些信息指导企业未来的发展。而要在基于历史的数据仓库的基础上为企业将来的发展作决策和预测时,数据的质量问题就变的非常关键。根据“垃圾进,垃圾出”原理,存在缺失数据、噪声数据、不一致数据和冗余数据等质量问题的数据会导致漫长的响应时间和昂贵的操作费用,并且会影响从数据中导出规则的准确性和挖掘出的模式的正确性,进而使决策支持系统产生误导决策的错误分析结果,影响信息服务的质量。因此,数据清洗正在成为数据挖掘与数据仓库领域的一个重要研究课题。  本文首先对数据清洗的相关理论知识进行了详细的介绍,介绍了数据清洗的概念、研究背景及意义以及国内外的研究与应用现状。并对数据清洗的定义与基本流程进行了总结,对缺失数据填补的常用算法以及噪声数据检测的常用算法进行了详细阐述。重点对缺失数据填补与噪声数据检测的各类算法进行了深入的研究,提出了相应的改进算法,并在此基础上设计了一个数据清洗系统。实验与实践表明,所提出的改进算法均具有较好的效果,设计并实现的数据清洗系统具有很高的实用价值。  本文的主要工作有:  1、提出基于近邻噪声处理的KNN缺失数据填补算法。该算法通过比较待填补缺失数据每个最近邻的真实近邻程度能够有效地识别潜在的噪声最近邻,最后使用所有非噪声最近邻对待填补缺失数据进行填补,从而消除了KNN缺失数据填补算法效果受噪声最近邻的影响。实验表明该算法具有较高的填补准确性。  2、提出基于双聚类的缺失数据填补方法。该算法首先利用双聚类簇内平均平方残值越小簇内数据相似性越高的特性,将缺失数据的填补问题转化为求解特定双聚类簇最小平均平方残值的问题,进而来对数据集中缺失元素进行填补。除此之外,该算法利用二次函数求解极小值的思想对包含有缺失数据的特定双聚类簇最小平均平方残值的问题进行求解,并进行了数学上的分析证明。实验表明该算法具有较高的填补准确性。  3、提出基于DBSCAN与SVDD的噪声数据检测方法。该算法首先通过经典的DBSCAN算法首先对数据聚类,剔除DBSCAN算法识别出的噪声数据点。然后根据聚类的结果对每个类分别使用SVDD算法进行训练,得到每个类别对应的判别模型。然后使用得到的所有模型依次对数据集中的所有非噪声点进行分类,将数据集中不属于任何类别的数据视为噪声并剔除。实验表明该算法具有较好的噪声检测效果。  4、提出基于快速搜索密度峰值聚类与信息熵的噪声数据检测算法。该算法首先通过快速搜索密度峰值聚类算法对原始数据集进行聚类,移除快速搜索密度峰值聚类算法识别出的噪声数据样本。然后根据聚类结果分别为每一个类构建矩形窗格并进行网格划分,将类中所有数据样本投影到网格后计算类的信息熵,并将类中局部密度最低的部分数据样本依次从类中删除,计算每个数据样本删除前与删除后类的信息熵变化,将删除后使类信息熵变化明显的数据样本当作噪声。实验表明该算法具有较好的噪声检测效果。  5、结合前面的研究工作设计并实现了一个可扩展与可交互的数据清洗系统,该数据清洗系统主要有数据预处理、缺失数据填补、噪声数据检测、关联分析四大功能模块,该系统目前已经投入到实际应用当中,并且取得了较好的效果。
其他文献
为了解决软件复杂性危机,学术界和产业界提出了自主计算的概念.自主计算的核心是使计算机系统具有自管理能力,包括自配置、自优化、自恢复和自保护.虽然自主计算描述了美好的
随着社会生产力的持续进步,人们对高性能计算的需求与日俱增,而机群已经牢牢地占据了HPC体系结构的主流地位.网络攻防技术的激烈转换,使得通过Internet共享资源的计算中心所
无线自组网由于其鲁棒性、抗毁性、适应环境能力强等特点,被广泛用在国防战备、军用通信、紧急救灾等不需要基础通信设施或者只需要临时通信的环境.随着移动通信和移动终端技
本文从Debian GNU/Linux操作系统的基本概念和设计实现出发,研究了在龙芯处理器平台上Linux发行版的开发过程和实现方案,对实现过程中软件包编译和管理环节提出了优化方案和
在目前的考试系统中,由于自然语言处理和人工智能技术的限制,具有通用性和实用性的主观题自动评分系统还没有出现。国内现有的系统对主观题的处理大多依然是通过教师的人工阅
近年来机群系统凭借良好的可扩展性、可用性以及极高的性价比成为高性能计算机和超级服务器的主流结构.然而,磁盘性能的改善远远落后于CPU处理速度、内存性能、互连网络带宽
在现代超大规模集成电路中,每个芯片中都包含上百万个晶体管和互连线,其中任何缺陷都可能导致整个芯片设计失败.在后端物理设计中,要经历综合、布图规划、布局、布线等步骤,
在"龙芯"产业化过程中,"应用软件库"不丰富是一个重要的问题,对于用c/c++等平台相关语言编写的应用程序,移植和维护都需要大量的人力物力,只要"龙芯"产品投入市场,移植和维护
软件安全漏洞的存在及其带来巨大的危害使得软件漏洞检测技术的研究日益重要。其基本思想是通过对待测试软件程序采取不同的技术手段,分析程序的源代码、二进制代码或在对应
近十来年,互联网技术得到了快速发展,互联网用户不断增加,网络应用得到迅速普及,网络数据的增长速度超乎想象。XML语言(可扩展标记语言)作为互联网上数据交换和共享事实上的