论文部分内容阅读
非平衡数据集分类是指在数据集中各类样本数目不相等的分类问题。传统的分类算法大多是建立在样本分布均等或者样本错分代价相同的基础之上,因此在处理非平衡数据时较容易出现少数类样本的错分现象。随着互联网的广泛应用,网络中储存的信息量变得相当庞大,同时这些大数据中含有非平衡数据集,为提取信息带来了巨大的挑战。1.SMOTE(Synthetic Minority Over-sampling Technique)在进行样本合成时只在少数类中求其K近邻,这会导致过采样之后少数类样本的密集程度不变的问题。鉴于此,提出一种新的过采样算法NKSMOTE(New Kernel Synthetic Minority Over-Sampling Technique)。该算法首先利用一个非线性映射函数将样本映射到一个高维的核空间,在核空间上计算少数类样本在所有样本中的K个近邻,然后根据少数类样本的分布对算法分类性能的影响程度,赋予少数类样本不同的向上采样倍率,从而改变数据集的非平衡度。实验分别采用决策树(Decision Tree,简称DT)、误差逆传播算法(error Back Propagation,简称BP)、随机森林(Random Forest,简称RF)作为分类算法。并将几类经典的过采样方法和NKSMOTE方法进行多组对比实验。在UCI数据集上的实验结果表明NKSMOTE算法具有更好的分类性能。2.在代价敏感的理论基础上,结合RareBoost算法和GMBoost算法的思想,给出一种将代价敏感思想与过采样技术相结合的非平衡数据分类算法—NIBoost算法。该算法首先在每次迭代过程当中使用过采样算法(NKSMOTE)对数据集进行过采样,然后在该数据集上对分类器进行训练;随后根据分类结果的类标不同分别调整样本的权值。实验分别采用决策树、朴素贝叶斯算法作为弱分类器算法,在UCI数据集上的实验结果表明NIBoost算法在处理非平衡数据分类问题上具有一定的优势。3.大数据中存在一定数量的非平衡数据集,通过采用MapReduce并行计算框架,基于NIBoost算法设计并行非平衡数据处理算法PNIBoost,使其在大数据环境下可以较好的对非平衡数据集进行处理。在UCI数据集上进行了实验,实验结果表明该算法在大数据环境下具有良好的并行性能。4.构建了基于B/S结构的非平衡数据集分类系统,该系统将本文所提到的过采样算法和分类算法进行了集成,以及为了方便用户对集群的管理,同时提供了集群管理界面。