不平衡数据分类方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jianyu128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘领域中一个重要的研究课题,大多数传统分类算法均建立在各类样本分布平衡的假设之上,工程实践中,数据样本不平衡的现象广泛存在。因此,在很多领域中对不平衡数据分类的研究具有很大的实际意义。传统的分类算法以总体样本分类准确率最大化为目标,这会使分类结果倾向于多数类样本。目前解决不平衡数据分类问题的方法大致可分为数据级方法、算法级方法以及特征级方法。本文深入研究了不平衡数据的分类方法,并取得了以下研究成果:首先,重点介绍了四种传统的不平衡数据分类方法,包括随机上采样、随机下采样、邻域权重K近邻算法以及基于随机森林的不平衡特征选择算法,通过四种方法进行了实验仿真,分析了这几种方法的优势和不足。此外,本文还简要阐述了不平衡数据分类的评价准则,为算法性能的评判提供了客观依据。其次,针对局部均值分类器应用于不平衡数据分类时会倾向于多数类样本的问题,本文提出了一种基于局部均值的不平衡数据分类方法。该方法区别对待少数类样本和多数类样本,按不同类别计算不同数目局部样本的均值,同时,针对局部均值分类器忽视整体信息的问题,计算测试样本到各类别的累加距离,使其代替原来的单一距离,最终比较累加距离大小进行类别判定。仿真结果表明,该方法有效提高了少数类样本的分类准确率,并在不同数据集上表现出较强的稳定性。最后,针对RELIEF-F算法运用于不平衡数据特征选择时无法有效选择出少数类样本和多数类样本关键区分特征的问题,本文提出了一种基于改进的RELIEF-F和集成学习的不平衡特征选择分类方法。该方法采用Bagging算法对多数类样本进行采样,构建多个平衡训练子集,再对每个测试样本根据其不同的训练子集进行特征权重的计算,然后对各训练子集下的特征权重进行集成,选择出特征权重大于设定阈值的特征,最终通过选择的不平衡数据分类算法,并根据特征选择的结果对测试样本进行分类。仿真结果表明,该方法有效改善了少数类特征选择的效果,提高了整体分类性能。
其他文献
目的 探讨采用不同方法结合康复一体化治疗上颈椎损伤的临床意义.方法 回顾性分析上颈椎损伤患者87例临床资料,根据损伤类型非手术及手术不同治疗方法并康复一体化处理,疗效
ZJ19卷烟机烟枪布带过渡轮机构在实际维修换件过程中,需要将布带过渡轮连同其固定底座取下。拆卸、安装的零部件较多,维修难度大,其所占用的维修时间较长,并且刮刀使用寿命较
技术理性的专业教育阻碍学习者的主体性发展。"行动学习研究"以反思理性为核心,利于学习者的主体性提升。它是教育者秉持"机体主义"的专业发展理念,通过"项目协作"的专业发展
杠杆法是通用公司及同济大学对行星齿轮变速器传动比的一种图解方法。他的图形是以纵横座标的线段来表示的。按传统表示S为太阳轮,I为齿圈,PC为行星架,再用下标来表示各排。
高层建筑已经成为当前主流的建筑形式,这也是受到社会经济以及人口增长的影响,同时高层建筑的出现也节省了土地资源、减少了城市人口聚集的压力,缓解了住房紧张的问题。随着
习近平在领导新时代治国理政的伟大实践中,始终把人民放在心中的最高位置,形成了"以人民为中心"的新时代治国理政根本立场。"以人民为中心"之所以成为习近平治国理政的根本立
研究了节能减排管理过程中政府与企业的博弈过程,以分析政府和企业在不同策略下的成本收益为基础,运用演化博弈理论的复制动态方法,建立了政企演化博弈模型。结果表明,企业开展节
随着人民生活的富足,在学生的培养教育方案中纳入了素质教育这一领域,而且随着经济的不断发展进步素质教育所占比例也随之上升。素质教育,顾名思义就是培养学生成为全面人才,
目的探讨CT引导下三叉神经节脉冲射频术治疗非典型面痛的有效性和安全性。方法共37例非典型面痛患者均于CT引导下经Hartel前入路卵圆孔穿刺行三叉神经节脉冲射频术,分别于术