非平衡数据集分类算法的改进和并行化研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:bladehit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡数据集分类是指在数据集中各类样本数目不相等的分类问题。传统的分类算法大多是建立在样本分布均等或者样本错分代价相同的基础之上,因此在处理非平衡数据时较容易出现少数类样本的错分现象。随着互联网的广泛应用,网络中储存的信息量变得相当庞大,同时这些大数据中含有非平衡数据集,为提取信息带来了巨大的挑战。1.SMOTE(Synthetic Minority Over-sampling Technique)在进行样本合成时只在少数类中求其K近邻,这会导致过采样之后少数类样本的密集程度不变的问题。鉴于此,提出一种新的过采样算法NKSMOTE(New Kernel Synthetic Minority Over-Sampling Technique)。该算法首先利用一个非线性映射函数将样本映射到一个高维的核空间,在核空间上计算少数类样本在所有样本中的K个近邻,然后根据少数类样本的分布对算法分类性能的影响程度,赋予少数类样本不同的向上采样倍率,从而改变数据集的非平衡度。实验分别采用决策树(Decision Tree,简称DT)、误差逆传播算法(error Back Propagation,简称BP)、随机森林(Random Forest,简称RF)作为分类算法。并将几类经典的过采样方法和NKSMOTE方法进行多组对比实验。在UCI数据集上的实验结果表明NKSMOTE算法具有更好的分类性能。2.在代价敏感的理论基础上,结合RareBoost算法和GMBoost算法的思想,给出一种将代价敏感思想与过采样技术相结合的非平衡数据分类算法—NIBoost算法。该算法首先在每次迭代过程当中使用过采样算法(NKSMOTE)对数据集进行过采样,然后在该数据集上对分类器进行训练;随后根据分类结果的类标不同分别调整样本的权值。实验分别采用决策树、朴素贝叶斯算法作为弱分类器算法,在UCI数据集上的实验结果表明NIBoost算法在处理非平衡数据分类问题上具有一定的优势。3.大数据中存在一定数量的非平衡数据集,通过采用MapReduce并行计算框架,基于NIBoost算法设计并行非平衡数据处理算法PNIBoost,使其在大数据环境下可以较好的对非平衡数据集进行处理。在UCI数据集上进行了实验,实验结果表明该算法在大数据环境下具有良好的并行性能。4.构建了基于B/S结构的非平衡数据集分类系统,该系统将本文所提到的过采样算法和分类算法进行了集成,以及为了方便用户对集群的管理,同时提供了集群管理界面。
其他文献
识字是一切教学活动得以开展的基础,小学低年级学生正处在教育教学的初级阶段,识字教学的有效开展,有利于小学生顺利进行各个科目的学习。本文立足于目前小学语文低段识字教
<正> 八十年代后期,我县初中生数学的学习情况,虽然已经有了很大的变化,但各校的数学基础不平衡,差生面较大,造成这种现象的原因之一是不少教师有“应试教育”的思想,抓中等
在我国社会主义建设的历史和现实中,政府与市场之间的关系问题长期以来一直是一个备受关注、争议不断的问题。对这个问题的理解和回答,构成了中国共产党人特别是习近平同志对
舞蹈是一门具有强大生命力的艺术,舞蹈基本功是舞蹈的基础,重视舞蹈基本功的练习对于提升舞蹈表现力至关重要。本文基于舞蹈基本功,探究了在高校中应该如何对舞蹈基本功课教
美术教学与其他学科相比,有其独有的特点,一节好的美术课,要关注学生,从学生的实际出发,关注学生的情感需求和认知需求,关注学生的已有的知识基础和生活经验,使学生真正体验
本文介绍荷兰教育体系和职业教育的特点,以荷兰戴尔逊学院国际航空服务专业为例,总结荷兰航空服务专业在实施能力本位项目化教学、引入国际化标准、鼓励学科交叉教育、深入区
人类社会发展史既是文化创造的历史 ,也是传播媒介的创造史和传播关系的发展史 ,在传播与社会、文化的关系中 ,人的创造性、反思性是永恒的“调适器”。在现代性视野里建构的
通过梳理以国立北京大学和国立中山大学为中心的中国近代民俗学研究,分析其诞生的时期、精神和研究对象,认为歌谣和风俗是主要的研究对象。歌谣研究希望以白话来代替文言,是
正念通常指“有意识、不带判断地将注意力放在当下经验上的心理过程”。正念训练利于平复内心,并促进人际交往。但正念训练是否提升共情,尚未有一致的结论。本研究旨在考察正