优化的代价敏感随机森林算法设计研究

来源 :科学与生活 | 被引量 : 0次 | 上传用户:zh85120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:代价敏感随机森林算法是解决不平衡数据分析的一种典型方法,在许多领域应用广泛,但其存在着两个不足一是构造代价函数时未考虑样本分布情况,二是对于数据集内的所有特征其距离计算过程相同,未突出重要特征。为解决上述问题,本文提出了一种优化方法根据样本分布情况构造代价因子,并引入权重距离,以提升算法性能。
  关键词:随机森林;代价敏感;不平衡数据
  1代价敏感学习
  在处理不平衡数据时,由于多数类样本与少数类样本数量相差巨大,会导致学习结果出现偏差,生成的分类器会完全偏向于多数类。如样本空间为1000的数据集,为二分类,其中多数类样本995个,少数类样本5个,那么分类器在对待新样本时,只需要将其机械的分为多数类,其准确率也在99.5%左右。而这种分类方法却远不同于我们的需求,往往我们希望分类器能够更加准确的分出少数类。如医院在诊断癌症患病者时、银行在判断贷款有无坏账风险时等。
  代价敏感的学习方法就是对分类器设置分类错误时的代价,如下表所示,其中表示少数类,表示多数类,表示将a分为b需要付出的代价。
  之后采用贝叶斯定理构建风险函数,如式(1)所示:
  2优化的代价敏感随机森林算法设计
  通过将代价矩阵引入到随机森林中,起到准确处理不平衡数据的效果,但代价矩阵构造的准确程度将直接影响分类准确度,且传统的代价敏感随机森林方法使用欧式距离计算样本距离,但在样本空间中特征的重要程度不同,仅通过计算欧氏距离构造的代价矩阵分类性能较差。本文选用的方法根据样本实际分布情况,产生代价因子,并将样本集的权重距离结合到代价函数的计算过程之中。
  首先计算多数类、少数类与整个数据集的数据中心之间的距离,通过计算每个特征的算术平均值,设数据集的每一行代表一个样本,每一列代表一个属性,如:
  然后需要计算各类样本中心到数据集中心的权重距离,在数据集中,重要特征相对较少,计算类别中心到整个数据集中心的欧式距离构造代价对重要特征不公平,本算法引入权重距离,利用信息增益衡量每个特征在不同类别中的重要性,如下式所示
  第三步,设多数类,少数类,其中样本数分别为,能够定义系数如下:
  最后,设d表示权重距离,可得到代价函数如下:
  算法基分类器组合阶段,针对不平衡数据,每棵决策树使用 AUC 值进行性能的在评估,利用 AUC 值对数据进行加权投票,权重越大,说明该基分类器性能较好,在最后决策阶段占的权重越大,对于分类性能差的,权重越小,对结果的影响就小。最后随机森林分类器的输出为
  3实验与分析
  为验证方法准确性,本文选取公开数据集UCI中的多组数据将其转化调整为两类不平衡数据,对决策树(C4.5)、随机森林分类器(RF)、传统代价敏感随机森林与选用的的优化的代价敏感随机森林算法进行对比。
  其中C4.5分类器算法比较直观,实现简单,但是容易对数据造成过拟合,特别当特征较多时,训练的决策树较复杂,且没有考虑不平衡数据的特点,少数类性能很差。 随机森林分类器的性能优于传统决策树算法,但其同样没有对不平衡数据集针对学习,对少数类样本的分类结果较差。而引入代價敏感的两种算法可以较好地处理不平衡数据,在AUC性能上有了较大的提高,但是代价敏感的随机森林算法忽略了不同代价类型在分类过程中的重要性,而优化算法能够将不同分类能力的基分类器以 AUC 值赋予权重,有效避免了噪声数据的干扰。实验结果表明,重新构造代价函数、利用 AUC 值对树进行评价,对性能不同的树区别对待对不平衡数据分类是有效的。
  从上表中可以看出,虽然优化算法需要稍高的运算资源,且多数类精度有所下降,但其少数类精度提升明显,符合我们设计分类器的需求。
  4结语
  不平衡数据集给数据分析工作带来了较大的难处,本文选用的优化的代价敏感随机森林方法,能够有效防止分类器盲目将新样本归为多数类,设计了更加合理的代价函数与结果生成方法,通过实验证明,该方法对于处理不平衡数据具有一定的意义。
  参考文献
  [1]向鸿鑫,杨云.不平衡数据挖掘方法综述[J].计算机工程与应用,2019,55(04):1-16.
  [2]陈斌. SMOTE不平衡数据过采样算法的改进与应用[D].广西大学,2015.
  [3]马骊. 随机森林算法的优化改进研究[D].暨南大学,2016.
  [4]陈圣灵,沈思淇,李东升.基于样本权重更新的不平衡数据集成学习方法[J].计算机科学,2018,45(07):31-37.
其他文献
摘要:目的分析探討在临床肝细胞癌的诊断中,分别使用CT诊断与MR诊断的准确率和效果。方法本研究使用回顾性分析的方法,选用本院病理诊断确诊为肝细胞癌的70例患者作为研究样本,患者在本院接受相关诊治的时间,为2020年9月至2021年9月;对所有样本均实施CT检查和MR检查,并按照不同病灶直径对样本的两种检查诊断结果与病理诊断进行分类对比,分析其影像学表现及临床诊断的准确率。结果所有样本中,CT与MR
期刊
摘要:目的分析甲状腺占位性病变的临床影像学表现,探讨应用CT检查进行甲状腺占位性病变临床诊断的方法及应用价值。方法本研究以本院诊治的49例甲状腺占位性病变患者作为研究对象,对研究样本的CT检查结果进行回顾分析,观察总结甲状腺占位性病变的临床CT影像学表现及诊断准确率;所选样本为2020年10月至2021年10月间本院收治的患者,且所有样本均经本院临床穿刺细胞学检查,确诊为甲状腺占位性病变患者。结果
期刊
摘要:樟子松是吉林省西部地区盐碱地造林的先锋树种,因此,如何培育樟子松的苗木是进行其造林的关键环节之一。基于此,本文从选地整地、种子处理、播种、苗期管理、肥水运筹、病虫害防治及大苗培育等方面总结了樟子松育苗技术,以供参考。  关键词:樟子松育苗;樟子松造林;樟子松;育苗;技术  樟子松(PinussywestrisvarmongovicaLitvin)是欧洲赤松的一个地理变种,又名蒙古赤松、海拉尔
期刊
摘要:在吉林省西部地区,玉米是主要粮食作物之一,是农民主要的种植农作物。玉米的要注重防治虫害,同时生长离不开各种元素,本文介绍了我县常见的玉米虫害及缺素症的相关症状,本文分析了玉米缺少氮、磷、钾、锌、铁等元素的主要表现,并提出了相关的防治措施。  关键词:玉米虫害症状;玉米虫害防治;玉米缺素症;玉米虫害;玉米缺素;玉米元素缺素症;玉米  玉米是我县主要粮食作物之一,而粮食是国民经济的基础,加强玉米
期刊
摘要:近年来,随着人们需求量的日益增加,农业产业结构的不断调整,我国蔬菜种植面积显著提升,在市场利益的驱动下,越来越多的种植户过分追求产量,在蔬菜种植中使用过量的化肥以及农药,引发了一系列社会问题以及严重的生态问题,与此同时,因种植户在病虫害防治过程中过分依赖农药,导致病虫草抗药性明显提高,害虫愈发猖獗,农药残留量明显增加,时常发生中毒事件,使得蔬菜种植面临着巨大损失,广大市民健康亦受到了威胁。 
期刊
摘要:近年来,我国淡水养殖行业大力发展,带动了社会经济水平进步,同时也改善了人们生活条件,为我国农业发展拓宽了道路。对于淡水养殖来说,池塘的水体环境具有重要的影响,良好的池塘水体环境有助于水产生物的健康生长与繁殖。因此,人们在开展淡水养殖过程中,必须积极探索淡水养殖池塘水质的影响因素,同时分析水质环境的哪些因素对水生物生长造成影响,采取先进的池塘水体生态调控技术,解决阻碍水生物生长繁殖的因素,提高
期刊
摘要:在水稻种植期间,病虫害的防治工作十分关键。因此,针对农民来说,其需要认识到病虫害防治工作中的根本问题,积极探索病虫害防治渠道,提升病虫害的预防意识。  关键词:水稻;病虫害;防治;技术措施  1水稻病虫害发生的主要原因  1.1没有从根本上有效把握好病虫害的发生规律和周期而做好预防  从整体情况来看,因为水稻种植户缺乏应有的专业技能和综合素质,对于水稻病虫害的发生特点、规律等相关内容缺乏深入
期刊
在大众餐桌上,大豆是一种比较常见的农作物食品,对于人们的身体健康十分有益,可以有效降低机体胆固醇水平,具有养胃的效果。然而大豆实际种植过程中,经常会出现栽培技术的应用不合理以及肥料施加不够科学等一些情况,导致大豆农作物的质量受到一定影响。为了对国家所提倡的农业绿色生态化发展的要求积极响应,应加大绿色大豆标准化栽培技术的推广力度,为大豆优质高产提供保障,推动国家农业的进步。  一、绿色大豆的应用价值
期刊
摘要:随着科学技术的发展,现代农业在种植过程中应用的先进技术,提高了农业种植的产量和经济收益。当然作为农业的重要经济作物,现代林果业种植也得到了快速的发展,应用先进的技术使其朝着更加现代化的方向发展。设施果树栽培技术是现代林果业种植中的一项重要技术,它将果树的种植环境进行了人为调整,为果树的成长提供了更加適宜的外部环境,从而保证果树能够得到高产和优产。为此,本文将简单探讨现代林果业种植中设施果树栽
期刊
摘要:本文以感官鉴定、保质期、微生物检测、蒸煮品质、质构分析为实验指标,研究了防腐剂对湿米粉防腐保鲜的效果以及对品质的影响。结果表明:脱氢乙酸钠0.8g/kg、聚赖氨酸盐酸盐0.08g/kg,能将即食鲜湿米粉延长期至19d。  关键词:防腐保鲜;感官鉴定;质构分析  鲜湿米粉作为一种独特的产品,因其营养合理,容易消化,使用方便而深受消费者欢迎,但鲜湿米粉水分含量高,易腐败变质[1]。本文添加防腐剂
期刊