一种非平衡数据分类的过采样随机森林算法

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:huangyulin2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据
其他文献
棚户区更新改造作为我国一项重大的民生工程近年来被大力推行,近年来小城市棚户区更新改造实践暴露了诸多问题,其中一个很重要的问题就是城市公共空间的问题。随着城市化进程
1997~2001年通过对玉米宽窄行种植的试验示范研究结果表明,玉米宽窄行种植可促进生长发育,根系数量增多,叶面积大,干物重增加,培肥地力,降低生产投入,提高玉米产量。
饮食跟我们日常生活有很密切的关系,我们吃饭的时候,一边吃一边谈菜的味道。因为有味觉我们知道菜的味道,味觉是人们的一种生理反应,同时这种味觉的生理反应也和其它的生理反
系统梳理国内外文献成果,对旅游企业效率、旅游交通和旅游目的地效率、旅游产业效率、旅游生态效率等研究状况与特点进行回顾与分析。当前,国内外旅游效率研究受重视程度不断
储蓄机构和储户究竟应由哪一方承担存款冒领纠纷案件中身份证件真伪不明时的证明责任,理论上存有争议,实务中亦存在分歧,这无疑会对司法实践的顺利、合理开展产生实质性的负
职业教育作为提升国民技能素质的主要路径,在世界经济发达国家,无不放在重要地位,只是具体做法各有特色,而德国的教育、职业教育、双元制职业教育、双元制高等职业教育就颇具
高中英语单词是我们学习英语知识环节中最重要的组成部分,并且在高中学习环节中,需要我们掌握的词汇量比小学和初中阶段的更多,呈现出直线上升的情况,但是这种增加趋势也给我
植被覆盖度是表征水土保持状况的一项重要指标。传统的样本估算法在计算大范围、多时相的植被覆盖度时既耗时耗力又易产生误差,为此基于先进的遥感技术,选择十大孔兑流域作为研究区,以1990年、2000年和2010年为分析典型年,以归一化植被指数和遥感反演为基础,利用像元二分模型按照土壤侵蚀强度分级指标中的覆盖度等级划分标准对植被覆盖度等级重新划分,进而定量分析了该研究区的植被覆盖度空间变化。结果表明,19
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议