论文部分内容阅读
在数据挖掘的实际应用当中,作为数据挖掘对象的源数据通常都是带有噪声的。人为的错误、测量设备的误差、数据收集过程的漏洞都是导致噪声的原因。传统的做法是在应用数据挖掘算法之前,对源数据进行去噪等数据预处理工作。但是这些工作繁琐、耗时且难以保证正确性,对数据挖掘的实际效率造成了不可忽视的影响。所以,通过改进数据挖掘算法以适应噪声数据,从而减轻或免去庞大的数据预处理工作,成为了当今数据挖掘界在理论研究方面的热点。
近些年来,在不确定性数据(噪声数据)处理的方向上已经出现了不少有意义的研究。大致上来说,数据的不确定性可以分为两大类:第一类是关注数据存在的不确定性;第二类是关注属性取值的不确定性。本文研究的是第二类不确定性数据,具体来说就是当前观测到的数据是由原始数据真值加上一个以概率密度分布表示的噪声所组成的,而且噪声的概率密度分布是已知的,但是原始数据真值的概率密度分布并不可知。针对这一类问题,本文总共提出了四个新算法:NoiseEnsemble、ActKnn、ActSVM、ActSVM_HD。NoiseEnsemble算法借鉴了组合分类算法的思想,目的在于分散噪声对分类器的影响,即每次在带噪声的训练集中随机抽样训练子分类器,最后通过投票决定测试数据的标签。ActKnn、ActSVM和ActSVM_HD算法都属于主动学习算法在噪声数据上的应用,只是各自在挑选用于主动学习的关键点时的方法有所不同:ActKnn算法用到了K近邻算法来识别带噪声训练集中的边界点并对其进行去噪还原;ActSVM算法则应用支持向量机原理找出带噪声训练集中的支持向量并进行去噪还原;而ActSVM_HD算法是对ActSVM算法的改进,就是只挑选距离分类超平面近的支持向量作去噪还原。
在实验方面,本文首先将NoiseEnsemble、ActKnn、ActSVM、ActSVM_HD这四个算法放在同一实验环境下进行对比,发现ActKnn、ActSVM、ActSVM_HD这三个应用了主动学习思想的算法获得了较好的分类精度,而ActSVM_HD)算法更是以较小的主动学习代价提高了可观的分类精度。然后本文对NoiseEnsemble算法进行了详细的实验分析以研究其算法特性,包括了对其组合规模、采样率、概率分布、在无噪声数据集上的表现等在不同参数设置下的观察分析。最后,本文还将ActKnn、ActSVM、ActSVM_HD这三个主动学习算法与随机主动学习算法的实验效果作比较,证明了ActKnn、ActSVM、ActSVM_HD算法所挑选出来进行主动学习的数据点都是有效的。