剪枝和网格采样相结合的非平衡数据集分类方法

来源 :安徽大学 | 被引量 : 0次 | 上传用户:Mr_Law
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡数据集分类问题是模式识别、机器学习和数据挖掘领域中的常见问题,也是热点问题,吸引着众多学者的眼球。非平衡数据集是指数据集类别之间存在倾斜,某一类别样本比其它类别样本要多。传统分类器为了追求高准确率,侧重于非平衡数据集中的多数类样本分类的准确性。而恰恰相反,非平衡数据集中的少数类样本往往是我们所要关心的,这时分类性能不仅要考虑分类精度高低,同时要考虑分类代价大小。传统分类器对这种非平衡数据的处理会更多关注多数类别的样本,导致大量重要的少数类别的样本错分且真实信息受损。因此,研究非平衡数据处理问题是非常重要。目前,国内外学者在非平衡数据集分类问题上的研究已取得一定的成就,主要表现在数据预处理和算法两大层面上,在算法层面上,主要是试图改进传统算法,提高在非平衡数据集上的分类性能。而在数据预处理层面上,学者们研究大体是对负类样本进行欠采样,去除噪声数据和远离分类面数据,对正类样本过采样,加入噪声数据以至于达到数据平衡,再采用已有分类器进行分类,试图提高准确率。然而,去除数据还是加入数据,不同学者处理的方法也是不同的。本文在前人研究基础上,进一步对处理非平衡数据集分类的采样方法进行研究,防止一般欠采样方法所带来的重要信息数据的丢失,结合园艺工人们培植盆景的技巧,提出一种新的欠采样方法——剪枝网格采样方法,通过剪枝技术将多数类样本分类,分成绝对安全数据、边缘数据和噪声数据三类,然后进行网格采样,再利用自适应增强法对采样后数据进行学习。以ROC曲线为评价标准,对人造数据和典型的UCI数据集分别进行验证,其AUC值要大于其他几类算法,说明该模型具有良好的性能。接着,又将该方法和Random-SMOTE方法结合,提出混合采样方法,利用ROC曲线评价标准,通过两组数据对模型进行性能测试,结果发现该模型性能也很优越。
其他文献
在博弈论中,最经典的模型是Nim博弈,其游戏规则如下:有若干堆石子,每堆石子的数量都是有限的.两个参与者轮流进行合法移动,从任意一堆中拿走若干颗石子(不能不拿).在normal规
Vague集理论是Fuzzy集理论的推广,它用一个真隶属函数以及一个假隶属函数来描述不确定信息,比传统的Fuzzy集更具灵活性。虽然从提出到现在只有短短的十多年,但是它已经在机器学
分析了国内油气田生常用加热设备水套炉在使用过程中热效率不高、寿命段、易泄漏等问题的原因,提出可通过采用新型高效燃烧器,新型优质热媒、高效换热管、控制焊缝质量以及水套
对于保险公司而言,收取合理的保费至关重要,目前很多保费原则广为运用,例如期望值保费原理,方差保费原理.尽管如此,很多学者仍然致力于研究出一些新的保费原理,例如Esscher保费原理,S
本文研究带有对流项a(x).▽u的非线性反应扩散方程初边值问题()解的长时间行为,其中Ω是Rn中的光滑有界区域。   对于这类方程,我们首先用Galerkin方法得到了解的存在性,
随机图论是现代图论的一个重要分支,它主要用概率论和随机过程的方法研究图的结构性质和代数性质,以期通过随机的方法来刻画图的各种参数性质,如度分布的存在性,染色数、连通度的
非凸规划问题作为一类重要的优化问题,能广泛应用于经济金融、信息技术、工业制造等多个重要领域.通常情况下,该类问题往往存在多个非全局最优的局部最优解,因此寻找其全局最优