论文部分内容阅读
在机器学习中,用于算法学习的数据集中往往充斥着大量的杂质和无用信息,在用这些数据集进行机器学习的算法学习任务时,一方面会造成计算处理量庞大,另一方面还可能影响算法的准确性。因此对数据集进行有效地预处理是进行分类学习、模式识别等问题的前提。数据简化是数据集预处理的一种重要手段,而实例选择作为常用的数据简化方法之一,它对数据集中存在的噪声实例和冗余实例进行有针对性地删除,得到原始数据集的一个压缩子集,并且要求具有和原始样本集相似或者更好地性能。通过实例选择算法对数据集的简化处理,一方面可以减小数据集的规模,降低空间存储率,提高学习任务的计算处理效率;另一方面也可以提升数据集的分类准确率。传统的实例选择算法通常将空间存储率与分类准确率这二者分离开来,或者重视提高数据集分类准确率而忽略数据集简化的目的,或者尽可能地减小数据规模而导致分类准确率明显地下降。针对分类准确率与数据集简化目的不相平衡的问题,为了既能有效地减小数据集的规模,同时又能使数据集的分类准确率有所提升,通过对众多实例选择算法的研究与分析,本文提出了一种新的实例选择算法,即基于同类实例对的冗余实例消除算法(RIPE),主要研究内容如下:1.将实例选择中经常涉及到的相关概念与问题进行了归纳与阐述,给出了实例选择算法的不同分类方式,并阐述了实例选择问题和k-最近邻分类的关系。最后对几种常见的实例选择算法从其所属分类的角度进行了较为详细地介绍。2.提出了最近同类实例对的概念,给出了其定义,并对最近同类实例对的特性进行了阐述。利用最近同类实例对的概念可以较好地描述数据集中的类内部冗余实例。通过计算数据集中存在的最近同类实例对,并将满足条件的实例进行删除,构造出了一种新的混合型实例选择算法——冗余实例对消除算法(RIPE)。实验过程选取了10个UCI上的标准数据集和一组人工数据集,用RIPE算法对它们分别进行了实例选择处理,实验结果表明,该算法能够有效地减小数据集的规模,降低空间存储率,同时得到的数据集分类准确率比原始样本集也有较高地提升。又将该算法与经典的ENN算法进行了对比实验,结果显示该算法能够在保持或提升ENN算法分类准确率的同时,平均空间存储率降低19%左右。3.分析了RIPE算法的优缺点,在此基础上对其进行算法扩展研究。由于RIPE算法的处理过程只是进行了一次迭代,因此本文在其基础上加入了重复迭代的处理,构造出一种冗余实例对迭代消除算法(RRIPE)。通过与RIPE算法等的对比实验表明,经过RRIPE算法处理得到的数据集能获得更高的存储压缩率,数据集规模有显著的减小,部分数据集的分类准确率较原始样本集有所提升。对比RIPE算法,该迭代算法的优势在于能获得很高的存储压缩率,因此RRIPE算法对于处理大规模数据集问题具有一定的意义。