高高度不平衡数据的代价敏感随机森林分类算法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:chinajiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制等问题.文中通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使选择的大类样本与原训练集的小类样本融合生成多个新的不平衡数据集,用于代价敏感决策树的训练.由此提出基于聚类的弱平衡代价敏感随机森林算法,不仅使小类样本得到充分学习,同时通过降低大类样本数量,保证代价敏感机制受其影响较小.实验表明,文中算法在处理高度不平衡数据集时性能较优.
其他文献
本文通过对荣华二采区10
期刊
一个好的自媒体一定会真正感动于品牌的细节或产品,而不是人云亦云地发布一些众人皆知的东西。自媒体在考虑商业模式之前,先扪心自问,内容经营上是否可以做到极致,同时持续地
细菌性食物中毒是影响食品安全的一个非常重要的因素。副溶血性弧菌(VP)是一种嗜盐性细菌,通常存在于近海海水、海底沉积物、浮游生物、海产品(鱼类和贝类)及腌渍食品中,是夏秋
现有的概念漂移检测方法大多集中于单标签数据流,难以满足多标签数据流概念漂移检测的需要,因此文中提出基于分层校验的多标签数据流概念漂移检测算法.算法包括检验层和校验
针对现有部件分割精度较低、泛化性和精度无法兼顾等问题,文中提出基于DeepLab的物体部件分割网络(DeepLab-MAFE-DSC).网络的编码器部分提出多尺度自适应形态特征提取模块(MA
在火力发电厂中,煤粉的储存、输送是其生产过程中很重要的环节,而煤粉在这些环节中经常会出现堵塞、结拱等现象,这些现象会对火力发电厂的安全性和经济性造成重要的影响。因
为了有效挖掘序列数据的时空信息,提出联合lp和l2,p范数极小化的序列子空间聚类算法.首先,定义依赖于样本距离的权重,构造基于l2,p范数的时序图,刻画数据在时间维度上的局部
交通噪声是环境噪声的主要组成部分,如何有效防范和控制交通噪声成为治理噪声危害的重要工作。对于柴油机而言,在排气系统中安装消声器是消减其运转噪声的有效手段,也是目前
本文设计了一套烟气自循环燃烧装置和间壁式陶瓷换热器,依靠燃烧器组织炉膛尾部的高温烟气回流,在燃烧器尾部与助燃空气掺混,并把空气中氧的浓度稀释到10[%]以下,同时二次加热助燃
应该选择怎样的上市路线?2009年5月1日,《首次公开发行股票并在创业板上市管理暂行办法》(以下简称《暂行办法》)正式施行。创业板市场开启在望,对主板和中小板望洋兴叹的众