基于上抽样和集成学习的不平衡数据分类研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:DSFDSAF
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据在统计机器学习领域成为一个越来越热门的研究课题。目前流行的统计机器学习理论和已有的分类算法,大多是建立在各类样本数据量大致相等的前提下,从而进行各类统计推断或是分析的。然而这些已有的经典方法一旦应用在不平衡数据中,便产生了严重的偏倚现象,使得少数类的识别率很低。但是在现实中的应用场景,少数类所隐含的信息是人们更加关注的。因此使少数类的识别率提高有理论意义和现实意义。本文从两个方面对传统的分类算法进行改进:1.数据层面,提出BOS上抽样方法。该方法基于非参数统计的Boostrap抽样方法。在每次样本的构造过程中取少数类的子样本集,对其求期望值作为新样本。从而扩充了样本容量,使类间不平衡度降低。实验表明,该抽样方法与经典的SMOTE算法相比,其分类指标都有不错的提升;特别是在需要扩容的样本量不多时,BOS算法的构造样本的有效性更强。2.算法层面,提出Ort统计量和Im-AdaBoost算法。本文通过分析AdaBoost算法的权重更新过程,指出其只区分了分类是否正确的情况,而未对正类和负类样本加以区分;并分析了基分类器的多样性对集成学习泛化能力的影响,提出了正交多样性统计量Ort。基于以上两方面的研究,本文针对不平衡数据给出了Im-AdaBoost算法,并且当参数s = 1时,AdaBoost为Im-AdaBoost算法的特殊情况。该算法的泛化误差上界和AdaBoost算法保持一致,为每轮权重更新时的规范化因子的连乘积。实验表明,改进后的算法与AdaBoost分类算法相比,F1和g-mean指标都有一定的提升。
其他文献
本文介绍了同步跟随与定长切割系统的机械结构及控制系统硬件的组成。在此基础上介绍了系统软件流程,并给出了主要控制模块的梯形图。系统硬件结构简单,响应速度快,切割精度高,运
为适应生态环境部门垂直管理改革,进一步规范乡镇(街道)环保机构运行管理,本文以成都市为例,研究了乡镇(街道)环保机构运行模式、工作机制以及基本保障等,提出优化对策建议。
近年来,随着计算机和网络技术的迅猛发展,基于对等结构(Peer-to-Peer,P2P)的大规模分布式系统迅速发展起来,成为占用Internet带宽最大的网络应用。越来越多的个人计算机通过有线
文章概述了张拉整体结构、膜结构、开合结构、折叠结构、板片空间结构的分类及受力特点。
<正>《国家中长期教育改革和发展规划纲要(2010-2020年)》中再次强调要继续实施"研究生教育创新计划",要不断提高研究生的培养质量,创新研究生培养方法,培养一批拔尖创新人才
<正> 人人都是星辰之子,人体内的每颗原子都曾在恒星爆炸的炽热炼狱里浴火重生。从宇宙诞生开始,原子便已存在;直到地球毁灭,原子仍将万古永存。原子看尽星起星灭,历尽宇宙沧
<正>股骨头坏死(ONFH)指股骨头部位血供中断受损,使骨细胞和骨髓成分缺血死亡,继而进行修复所导致的股骨头结构改变、塌陷而引起的患者关节疼痛、关节功能障碍的疾病[1]。随着