粒子群优化加权随机森林算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:awangvip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林(Random Forest,RF)算法是2001年由Breiman提出的一种分类模型。其本质是将Bagging的Bootstrap Aggregating算法和Ho的随机子空间(Random Subspace)算法结合起来,通过对多棵决策树分类结果采取投票选取机制,确定最终的分类结果。随机森林算法自提出之后,被广泛地运用于数据挖掘与分类问题,后来还有许多学者对模型做出了改进。随机森林是一种高效的分类算法,随机森林模型的优点在于它不需要样本的背景知识,不用做变量选择,拥有很高的噪声容忍度,因此可省略数据预处理的繁琐工作。但模型中的投票选取机制会导致一些训练精度较低的决策树也拥有相同的投票能力,从而降低投票准确度。而且随机森林模型中的决策树棵数及其它参数的选取通常对随机森林的最终分类结果也有较大的影响。针对那些训练精度不优、投票能力相对较差的决策树,本文通过对传统随机森林算法进行详细试验与分析,基本确定了传统随机森林算法性能不足的原因:随机森林投票选取机制会导致一些训练精度较低的决策树也拥有相同的投票能力,这对随机森林最终的分类结果准确率造成较大的影响。在分类的同时也可能会产生多个类别的最高票数相同而最终导致难以分类的现象,本文将此现象定义为“死局现象”。为解决低精度决策和高票数竞争带来的分类困难,本文以传统随机森林模型为基础提出一种精确度加权随机森林算法(Accuracy Weighted Random Forest,AWRF),即在投票时将每棵决策树乘以一个与其训练精度成正比的权重,针对参数难以选取的问题,采取粒子群算法对影响新模型的参数进行迭代优化,选取模型中包括的参数。同时设计相关仿真实验对比,通过Matlab软件对UCI数据库中6个标准数据集进行验证,最后用不同的算法对比新模型的优缺点。通过对比得出结论,表明了新模型在对此类数据分类时的优势。
其他文献
历史城区作为城市文脉与记忆的载体,具有历史文化资源保护的意义。同时其作为城市中区位较优越、建设起步较早、人口相对密集的区域,面临着发展的重任。作为城市建设审批管理
随着封闭式住区的弊端日益凸显,推广街区制、提倡已建设住区的开放成为我国城市发展的必然趋势,在此背景下,越来越多的居住区内部生活性街道将对城市开放。文章以合肥市三条
建设以“窄马路、密路网”为特征的小尺度开放街区,有利于激发城市活力、缓解交通压力,然而对城市路网窄密程度的评估是合理布局路网的基础。首先,应根据路网特性,提出路网窄
J波是心电图中QRS波群结束与ST段开始交叉点附近产生的顿挫状波形。临床医学显示J波变异常会引发心律失常、心源性猝死等心血管疾病而威胁人类生命。因此采用技术手段提高J波
随着人们生活水平的提高与社会的进步,人们对当下家具的设计不仅是外形的悦目和功能的多样化,还是不同年龄阶层对家具情感化设计的特殊要求,因此合理分析老年人的心理特征和
环环相扣、密切相连是土木工程最明显的特征,科学合理的工程施工管理有利于提高工程质量和效率。目前,在我国的土木工程管理中存在某些问题,严重阻碍了我国建筑业的发展和进
社区教育是现代大教育环境的核心内容,通过开展社区教育,创设终身教育及学习型社会。社区教育是一类具有全面性的教育系统化工程,所以在开展该项工作的过程中,必须遵守相应的