论文部分内容阅读
类分布不平衡数据与人们的生活息息相关,准确地分类这些数据具有非常重要的意义,因此不平衡数据分类成为数据挖掘领域的热点。面向不平衡数据分类时,传统的分类器往往失效,组合分类器性能也不理想,并且组合分类器还有占用内存空间大、预测响应时间长的不足。组合剪枝算法被广泛的应用解决上述问题,但是常见的组合剪枝算法多用训练实例集作为剪枝集,倾向选择出对负类实例更有利的基分类器,因此不宜应用到面向不平衡数据的组合分类器的剪枝中。目前单纯面向类分布不平衡实例集的组合剪枝算法较少有人涉及,本文从选择创建面向不平衡类的组合剪枝集出发,创建面向不平衡数据的组合分类器。首先本文基于SMOTE(the synthetic minority over-sampling technique)和简单随机欠抽样技术,提出了EPPS(Ensemble Pruning based on pruning set of SMOTE)和EPPU(Ensemble Pruning based on pruning set of Under-sampling)算法,这种两种算法分别把SMOTE和简单随机欠抽样技术应用创建相对平衡的剪枝集,用于监督组合分类器的剪枝过程,提升组合分类器对不平衡数据的分类性能;然后,本文又提出了EPPE(Ensemble Pruning based on Positive Examples)算法,EPPE把正类及其边界负类实例作为剪枝集,选择出基分类器池中对正类及其边界附近的负类分类性能良好的基分类器,创建出面向不平衡实例集的组合分类器。实验结果显示,与EasyEnsemble、Bagging和C4.5算法相比,EPPS、EPPU和EPPE用更小的剪枝集创建出具有更好的分类泛化性能的组合剪枝分类器,尤其是EPPE在大部分的实例集上显著好于其它的分类算法,并且三种组合剪枝算法都能显著降低组合分类器的规模。