基于多样性数据生成和集成学习的两类非平衡数据分类

来源 :河北大学 | 被引量 : 0次 | 上传用户:zhjjchj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题一直是机器学习领域研究的主要方向。研究人员提出了许多解决分类问题的方法。然而,这些方法大多数是针对类别平衡的数据分类问题提出的。在类别非平衡的情况下,大多数已有的分类算法对少数类样例的识别都很困难,但是少数类样例往往是我们关注的重点。而且,在实践中存在许多类别非平衡数据分类问题,例如,信用卡欺诈检测、疾病诊断、垃圾邮件过滤等。因此,研究类别非平衡数据分类问题是非常有必要的,且具有重要的理论和应用价值。根据数据集的类别数量,非平衡数据分类问题分为两类非平衡数据分类和多类非平衡数据分类两种。本文主要研究两类非平衡问题,提出了两种基于生成对抗网络的多样性数据上采样方法和一种基于模糊积分的非平衡数据集成分类方法。本文主要工作包括如下3点:(1)提出了一种基于改进生成对抗网络的多样性上采样方法GANDO(Generative Adversarial Networks for Diversity Oversampling),该方法将生成对抗网络中的判别器用三分类的分类器替代,用来预测输入样例属于多数类(负类)样例、少数类(正类)样例还是生成样例。这样做的好处是,分类器可以学习样例的分布信息,并且学习一个好的分类边界。因此可以避免生成的样例与负类样例重叠。此外,在生成器的损失函数中加入了类内散度正则化项,可以有效地避免生成器模式崩溃,使生成的样例具有较好的多样性。(2)提出了一种基于双判别器生成对抗网络的上采样方法D2GAO(Dual Discriminator Generative Adversarial Networks for Oversampling),该方法利用两个判别器来保证生成样例的多样性。此外,还增加一个分类器,用于学习正类样例和负类样例的差异,这不仅能保证生成样例类别的正确性,而且还能避免生成样例与负类样例重叠。(3)在上述两种上采样方法的基础上,提出了一种将上采样和模糊积分集成方法相结合的非平衡数据分类方法。该方法的基本思想如下:对于非平衡率较高的数据集,如果对正类样例上采样过多,那么上采样后的正类样例会非常稠密,重叠情况严重。为解决这一问题,对正类样例上采样到一定程度后,参照上采样后的正类样例的规模,将负类样例划分为若干子集。每一个负类子集和正类样例集合构成一个平衡的数据集,并用它训练一个分类器。最后用模糊积分集成这些训练的分类器,用于非平衡数据分类。
其他文献
<正>针对层状电极材料,研究了恒压及恒流条件下表面效应对锂离子电池充电、放电过程中扩散应力的影响.为简便起见,建模过程中,忽略了应力对锂离子扩散过程的影响以及充、放电
会议
利用化学置换镀铜的方法对海绵铁进行改性,使其表面形成铜铁电偶腐蚀对,以达到提高海绵铁去除水中溶解氧能力的目的。通过正交实验确定了海绵铁最佳化学置换镀铜条件,并对比
以水灭火是现代条件下扑救森林火灾首选的方法。本文论述了以水灭火技术在我国森林火灾扑救中的发展,阐述了以水灭火的原理和技术,介绍了背负式灭火机具、森林消防泵、森林消