论文部分内容阅读
现如今,对不平衡数据分类的研究主要分为数据层面、算法层面和评价指标层面。针对传统集成学习算法在不平衡数据分类时容易产生过拟合,使得分类效果不理想的问题,本文基于XGBoost集成学习算法,融合特征选择以及参数优化相关算法,对不平衡数据分类问题和数据集的特征选择算法展开了研究。本文的主要研究工作可以总结为如下几点:(1)文中提出了一种面向不平衡数据分类的Relief算法,该算法不仅解决了传统Relief算法在随机采样时可能会出现伪权重过大的问题,而且能够选择出对少数类分类更加有利的特征。(2)基于改进型的Relief特征选择算法,文中提出了基于Relief特征选择和GP(高斯过程)参数优化的XGBoost不平衡分类方法。该方法首先使用改进的Relief算法选择出对少数类分类更加有利的特征,然后使用XGBoost算法进行分类预测,同时利用高斯过程优化算法寻找XGBoost最优超参数组合。通过8组UCI数据集的测试实验,实验结果表明,该方法能够有效提高不平衡数据分类性能。(3)针对改进型的Relief算法存在人为地设置特征权重阈值δ,而过大或过小的权重阈值δ有可能会剔除相对重要的特征或者保留冗余特征的问题。本文从粗糙集理论出发,提出了一种新的粗糙集模型。为了在多粒度粗糙集模型中对目标概念达到更好的近似逼近效果,首先将直觉模糊粗糙集与多粒度粗糙集进行结合,提出直觉模糊多粒度粗糙集模型,由于该模型的目标近似存在过于宽松的缺陷,然后通过引入参数的方式,对所提模型进行改进,提出一种可变直觉模糊多粒度粗糙集模型,并证明了该模型的有效性,最后基于该模型提出了相应的近似分布约简算法。在仿真实验结果中,本文的所提出的下近似分布约简结果比已提出的模糊多粒度决策理论粗糙集约简和多粒度双量化决策理论粗糙集多了 2至4个属性,所提出的上近似分布约简算法比这些算法少了 1至5个属性,同时约简结果的近似精度拥有了更为合理且优越的表现。因此,理论和实验均验证了本文所提的可变直觉模糊多粒度粗糙集模型在近似逼近和数据降维方面均具有更高的优越性。(4)基于可变直觉模糊多粒度粗糙集模型近似分布约简算法,本文提出了基于粗糙集属性约简和GP参数优化的XGBoost不平衡分类算法。实验结果表明,相比于传统的集成学习算法和第三章本文提出的算法,不平衡数据分类效果更为有效。该算法无论是在F-Measure值还是在AUC值评价指标上,均取得了良好的不平衡数据分类效果。