论文部分内容阅读
分类是数据挖掘领域中一个重要的研究课题,大多数传统分类算法均建立在各类样本分布平衡的假设之上,工程实践中,数据样本不平衡的现象广泛存在。因此,在很多领域中对不平衡数据分类的研究具有很大的实际意义。传统的分类算法以总体样本分类准确率最大化为目标,这会使分类结果倾向于多数类样本。目前解决不平衡数据分类问题的方法大致可分为数据级方法、算法级方法以及特征级方法。本文深入研究了不平衡数据的分类方法,并取得了以下研究成果:首先,重点介绍了四种传统的不平衡数据分类方法,包括随机上采样、随机下采样、邻域权重K近邻算法以及基于随机森林的不平衡特征选择算法,通过四种方法进行了实验仿真,分析了这几种方法的优势和不足。此外,本文还简要阐述了不平衡数据分类的评价准则,为算法性能的评判提供了客观依据。其次,针对局部均值分类器应用于不平衡数据分类时会倾向于多数类样本的问题,本文提出了一种基于局部均值的不平衡数据分类方法。该方法区别对待少数类样本和多数类样本,按不同类别计算不同数目局部样本的均值,同时,针对局部均值分类器忽视整体信息的问题,计算测试样本到各类别的累加距离,使其代替原来的单一距离,最终比较累加距离大小进行类别判定。仿真结果表明,该方法有效提高了少数类样本的分类准确率,并在不同数据集上表现出较强的稳定性。最后,针对RELIEF-F算法运用于不平衡数据特征选择时无法有效选择出少数类样本和多数类样本关键区分特征的问题,本文提出了一种基于改进的RELIEF-F和集成学习的不平衡特征选择分类方法。该方法采用Bagging算法对多数类样本进行采样,构建多个平衡训练子集,再对每个测试样本根据其不同的训练子集进行特征权重的计算,然后对各训练子集下的特征权重进行集成,选择出特征权重大于设定阈值的特征,最终通过选择的不平衡数据分类算法,并根据特征选择的结果对测试样本进行分类。仿真结果表明,该方法有效改善了少数类特征选择的效果,提高了整体分类性能。