论文部分内容阅读
随机森林(Random Forest,RF)算法是2001年由Breiman提出的一种分类模型。其本质是将Bagging的Bootstrap Aggregating算法和Ho的随机子空间(Random Subspace)算法结合起来,通过对多棵决策树分类结果采取投票选取机制,确定最终的分类结果。随机森林算法自提出之后,被广泛地运用于数据挖掘与分类问题,后来还有许多学者对模型做出了改进。随机森林是一种高效的分类算法,随机森林模型的优点在于它不需要样本的背景知识,不用做变量选择,拥有很高的噪声容忍度,因此可省略数据预处理的繁琐工作。但模型中的投票选取机制会导致一些训练精度较低的决策树也拥有相同的投票能力,从而降低投票准确度。而且随机森林模型中的决策树棵数及其它参数的选取通常对随机森林的最终分类结果也有较大的影响。针对那些训练精度不优、投票能力相对较差的决策树,本文通过对传统随机森林算法进行详细试验与分析,基本确定了传统随机森林算法性能不足的原因:随机森林投票选取机制会导致一些训练精度较低的决策树也拥有相同的投票能力,这对随机森林最终的分类结果准确率造成较大的影响。在分类的同时也可能会产生多个类别的最高票数相同而最终导致难以分类的现象,本文将此现象定义为“死局现象”。为解决低精度决策和高票数竞争带来的分类困难,本文以传统随机森林模型为基础提出一种精确度加权随机森林算法(Accuracy Weighted Random Forest,AWRF),即在投票时将每棵决策树乘以一个与其训练精度成正比的权重,针对参数难以选取的问题,采取粒子群算法对影响新模型的参数进行迭代优化,选取模型中包括的参数。同时设计相关仿真实验对比,通过Matlab软件对UCI数据库中6个标准数据集进行验证,最后用不同的算法对比新模型的优缺点。通过对比得出结论,表明了新模型在对此类数据分类时的优势。