基于改进SMOTE的非平衡数据集分类研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:keyina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。
其他文献
程序的执行体现为数据在变量中的流动。对C/C++源代码中变量定义使用情况进行分析,针对变量未赋值就使用、变量重复赋值和变量定义后未使用三种数据流异常情况,使用程序阅读
综述近十年来针灸治疗艾滋病状况,发现针灸对提高HIV/AIDS患者的免疫功能,对改善其症状具有一定的效果。本文对针灸治疗艾滋病常伴发的咳嗽、腹泻及带状疱疹等的研究进展进行
空气质量与我们的健康和生活息息相关。但是近年来空气质量急速下降,空气污染的日益严重使得我们不得不重新认识空气质量。论文首先通过分析京津冀区域空气质量的空间分布和
目的探讨放射受体显像在甲状腺相关性眼病(TAO)诊断中的临床应用。方法以欧洲Graves眼病推荐的临床诊断评价标准将以眼部不适为主诉的患者20例(40眼)分为TAO组(32眼)和非TAO组(8眼),T
2014年中央一号文件提出"允许承包土地的经营权向金融机构抵押融资"。当前,在深化农村土地产权改革背景下,探索开展农村土地承包经营权抵押融资创新成为农村土地流转过程中的
C肽试验是临床应用于糖尿病诊断及其分型的一项化验[1],其标本采集需在受检者进餐前后取静脉血5次,以测定胰岛β细胞C肽的释放量.为了减少对病人的静脉穿刺次数,临床常采用静
<正> 当今社会生活中,文学性已如缺乏雪山之水的内陆河,日渐消失在沙海之中。我们生活在一个整齐划一、批量生产的工业时代,一个科学、技术至上的时代,一个工程师的时代。冰
<正>项目名称:迪亚设计库生活方式店项目背景:迪亚设计库生活方式店位于浙江省杭州市.其店铺为"生活方式店",营业面积450平方米,主要经营原创的时尚生活用品、办公用品和工艺
目的为探讨人急性单核细胞白血病细胞系(THP-1)中胆固醇转运相关的ABCG1基因的表达对动脉粥样硬化发生发展的作用,构建ABCG1慢病毒干扰载体,并验证干扰效果、进行功能检测。
<正>民以食为天,早已解决温饱的人们越来越关注食品的安全。可惜的是,食品的安全与经济的发展成了反比:经济越发展,食品越不安全。怎样让经济高