论文部分内容阅读
不平衡数据分类问题是机器学习领域里一个重要的研究内容。在不平衡数据中,样本在各个类别之间地分布是不平衡的。由于少数类样本数量稀少,用传统的机器学习方法在应对不平衡数据分类问题时会出现分类结果更多倾向于多数类,而少数类样本的识别准确率不高,对少数类样本识别困难。为提高少数类样本的识别率,研究人员在不同层面提出了解决办法,其中通过采样改变数据不平衡度从而改善少数类识别率的方法取得了比较广泛地应用,这其中最具代表性的算法就是SMOTE智能过采样算法。但是,SMOTE采样算法不加区分地对所有少数类样本采样,其采样范围过广。虽然能够达到提高少数类识别率的目的,但同时多数类的决策空间被新样本压缩,其识别率降低较大。因此采样前对需要采样的少数类样本进行筛选,研究有针对性的过采样方法很有必要。邻域粗糙集模型将粗糙集理论应用到邻域系统中,该模型以样本点及其邻域半径为基础,可以很容易得出整个不平衡数据集在特征空间的分布状态,如果能够把它应用到SMOTE采样算法中,则可能得到采样效果更好的采样方法。本文结合邻域粗糙集模型,开展了基于邻域粗糙集的采样方法的研究。首先,根据邻域粗糙集模型的理论,计算每个样本的邻域半径以及邻域,根据其邻域内的样本分布将不平衡数据集进行划分并得到属于边界域的少数类样本集与属于正域的多数类样本集。在此基础上,结合SMOTE采样算法,提出了基于邻域粗糙集的边界采样算法,即NRSBoundary-SMOTE算法。算法对边界域内少数类样本进行过采样,同时将合成样本与正域内的多数类样本进行比较,若合成样本属于某个正域内多数类样本的邻域,则进行重采样,否则将合成样本加入到训练集中。其次,在将NRSBoundary-SMOTE算法应用到大数据集上时出现了运行时间过长,执行效率过低的问题。因此本文结合MapReduce编程范式,提出了基于邻域粗糙集的并行边界采样算法,即Parallel-NRSBoundary-SMOTE。算法通过将数据集划分的过程与采样过程进行并行化,降低了算法的时间复杂度,有效改善在大数据上的计算效率。最后分别通过实验并将实验结果与其他算法进行对比分析,表明本文的采样算法能够更加高效地合成少数类样本,并且能够并行处理大数据,降低执行时间。