一种基于混合采样的非均衡数据集分类算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:ESC_liangzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在非均衡数据集中,针对使用单一的过采样或欠采样方法可能造成少数类样本过拟合或者丢失含有重要信息样本的问题.提出了一种新的基于混合采样的随机森林算法(USI).首先通过引进"变异系数"检测出样本集的稀疏域和密集域,然后对稀疏域中的少数类样本,提出了一种改进的过采样方法(USMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS),最后将平衡后的数据集送入随机森林分类器中进行训练.通过实验表明,该算法与传统算法相比,取得了更高的Gmean值,F-value值,具有更高的综合分类准确率.
其他文献
<正> 一、工程情况: 上海扬子江大酒店位于延安西路北侧,中山路口附近,占地面积约五千多平方米,主体结构36层,总高度120多米,平面形状呈十字型,为钢筋混凝土结构。本工程系香
伴随风电产业的蓬勃发展,风电吊装事故也时常发生,使得风电设备和起重机械损毁,甚至发生人员伤亡,造成极大损失。目前,由于我国陆地90米以下高度的风力资源开发已趋于饱和,高
为了维持细胞内环境稳定,细胞内基因可以控制细胞自主有序的死亡,这就是细胞凋亡。细胞凋亡是维持体内细胞数量动态平衡的基本措施,在胚胎发育阶段,细胞凋亡清除已完成使命的
<正> 已发表的文学作品被作者修改,这在我国现当代文学史上,原是谁都不以为怪的事,但近些年却引起了人们的注意。因为这不仅关系到文学史的面貌,而且还有个艺术得失的问题需
防止爆炸危险和提供直接方法来回收废钛的要求,已经促进了在炉体内部任何地方不使用水冷却的500磅废钛回收炉的发展。用自耗或非自耗直流电弧供应热,电极位置保持自动控制。坩埚是
高校课程表的编排是一项十分复杂、棘手的工作。目前,国内绝大部分高校利用计算机编排课表,不仅提高了排课工作的科学性,而且大大减轻了工作人员的工作强度,提高了工作效率。
作为电网公司营销业务的重要环节,业扩报装引领着未来售电市场的走向。然而,现阶段电网公司相关部门对于基础数据的利用率仍然较低,尤其是业扩报装方面,长期以来业扩报装的关
目的:探讨治疗前CT表现、肿瘤标志物水平及术后病理与卵巢癌复发的相关性,为早期预防卵巢癌复发提供依据。方法:回顾性分析经病理确诊、经系统性减瘤术及以铂类为主的全程化
目的:对艾滋病患者真空采血的护理干预措施进行分析探讨。方法:2010年9月-2014年9月收治艾滋病患者149例,进行真空采血,并采取相应的护理干预措施,总结采血效果。结果:一次性
目的:探讨沙库巴曲缬沙坦治疗慢性心力衰竭的临床效果。方法:选取2017年2月~2018年1月本院收治的94例慢性心力衰竭患者,根据入院时间分为两组,各47例。两组均采用利尿剂、洋