基于集成学习的不平衡数据分类的研究及应用

被引量 : 0次 | 上传用户:owg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,不平衡数据分类已成为数据挖掘领域的重要研究问题之一。数据不平衡是指数据集的各类别样本在数量上相差悬殊,其中样本数量少的类称为少数类,样本数量多的类称为多数类。传统的分类算法在处理平衡数据分类问题时,通常能够有效发挥性能优势,然而在处理不平衡数据分类时,对少数类样本的分类正确利率通常低于多类样本的分类正确率。在很多实际应用中,例如欺诈诊断、故障检测、文本检测、垃圾邮件过滤等,通常更关注少数类样本分类的准确率。因此,研究如何提高分类器对不平衡数据分类性能和提高分类器的泛化能力具有重要价值和现实意义。为了提高不平衡数据分类的分类性能,人们在传统分类算法的基础上做了很多改进。这些改进主要集中于两个层面:数据层面和算法层面。数据层面主要是对数据集样本的重采样,通过改变数据集的分布特点使之变得类别间基本平衡,然后采用传统的分类算法进行分类。如随机过取样、SMOTE算法、单边取样算法等。算法层面是保持原有数据的分布特点,通过修改算法内部结构使之能够适应不平衡数据分类。如基于代价敏感度学习的分类方法、改进的SVM、集成学习算法等。在上述改进算法中,集成学习能够表现出很好的分类性能和较强的泛化能力。通过对单个分类器进行改进和协调各个基分类器之间的差异性能够进一步提高集成学习的分类性能的主要因素。基于以上考虑,本文进行了如下几方面工作:1.在数据层面,分析并总结了取样算法单边取样和SMOTE过取样算法,针对SMOTE算法存在的问题,提出了一种改进的SMOTE算法。2.在算法方面,研究并分析了集成学习解决分类问题的优势以及影响其分类性能的因素,提出了一种新的解决不平衡数据分类问题的集成框架2D-SEFrame。3.研究了多类分类的常用策略,并将2D-SEFrame扩展到多类不平衡数据分类问题中,提出了针对多类不平衡数据分类问题的继承学习框架MC2D-SEFrame。4.将MC2D-SEFrame应用到了实际数据心电信号分类问题中,实验结果表明,所提出的算法能够取得很好的分类效果。
其他文献
使用自动识别氧弹的量热仪进行热量的快速测定。样品在氧弹内32个大气压下充分燃烧,仪器通过燃烧产生热量使氧弹周围循环水上升的温度值自动换算出样品中的热量值。目前国内
将现代塑料注射成型技术引入粉末冶金领域,不但扩大注射成型技术的应用,同时也推动粉末冶金工艺的发展。详细讨论金属粉末注射成型工艺及其应用,对其材料选择、产品与模具的
在我国,网络银行从起步到发展仅用了十几年的时间,现阶段存在着阻碍其发展的问题。文章从网上银行的概念和特点入手,分析了网银的发展背景和现状;深刻剖析了现阶段我国网上银
应收账款周转率与现金收入比率,是衡量与评价公司运营的两个重要财务指标,均是对一定期间内公司赊销收入回款情况的衡量与评价。通常情况下:应收账款周转率越高,表明收账回款
<正>肠道性能保持在最佳状态的家禽,通常其生产性能和健康状况也会保持在较高水平。刚出生的雏鸡,其肠道的健康运行对后期的生长和发育是非常重要的,因此,当前对于新生雏鸡肠
<正> (一) 一向被誉为“发展中国家经济发展优等生”的新加坡,步入1985年以后,开始为经济衰退而困扰。据报导,新加坡今年首季的经济增长率只有2.7%,第二季度进一步下降为-1.4%,
在我国社会主义经济体制改革不断深化的影响下,我国的行政事业单位目前在资产和财务管理工作内容和形式上也出现了很多变化,但是在行政事业单位资产与财务管理的实际工作上存
<正>贫困可谓与世俱生,在全球化不断加深的时代,它愈加受到人们的关注。世界银行作为促进全球发展的机构,长期关注着消除贫困的工作。从1990年到2001、2002年,该行都曾以贫困
<正> 《肖义墓志铭》,一九七六年四月出土于辽宁省法库县叶茂台。叶茂台是距法库县城西南四十五公里的一个山村。解放以来,在叶茂台西山多次发现辽代墓葬,这是一个辽代墓群可
文章针对多尺度城市空间数据库现势性不一致、孤立更新造成数据源和成果都不能共享、增量动态更新困难的现状,研究了多尺度城市空间数据在线更新技术,提出多尺度空间数据抽象