论文部分内容阅读
针对传统分类算法难以处理不平衡数据的问题,提出了一种基于混合采样策略的改进随机森林不平衡数据分类算法。首先从理论上分析了混合采样策略提升随机森林基分类器多样性的机理,随后设计了改进随机森林不平衡数据分类算法。算法采用过采样和欠采样混合采样策略为每棵子树生成不同的平衡训练子集,再利用该训练子集训练子树,从而创建随机森林分类器。最后用13种不平衡数据集进行实验测试。结果显示:采用较小的过采样因子可以取得较好的分类效果;与9种对照算法相比,改进的随机森林分类算法在AUC值对比时获得10个最优结果,G-mean值