论文部分内容阅读
互联网的高速发展导致了海量数据的诞生,其为人们获取信息提供了一定的便利,同时也使得人们淹没在信息海洋之中。为提高人们获取信息的效率,对海量数据进行自动分类是最常用的方法之一。然而,海量数据中极易出现数据不平衡的现象,即某个类别的样本数目明显少于其他类别的样本数目。传统分类算法在解决数据不平衡问题时的系统表现往往不尽人意,因此研究不平衡数据分类是十分必要的。现有的解决不平衡数据分类问题的主流方法为采样算法和集成学习boosting算法的结合,比如SMOTEBoost(Synthetic Minority Over-sampling Technique and AdaBoost.M2)、EE(Easy Ensemble)、RUSBoost(Random Under-sampling Technique and AdaBoost.M2)、EUSBoost(Evolutionary Under-sampling Technique and AdaBoost.M2)等算法。以上算法在迭代学习开始之前,给训练集中的每个样本赋予相同的权重,然而在数据不平衡现象存在的情况下,每个样本的重要程度是明显不同的。因此,以上算法忽略了样本分布的先验信息,即算法存在一定的缺陷。为了解决上述问题,本文提出了一个新的针对于boosting算法的加权策略PKW(Use Prior Knowledge to Weight Samples),该方法首先利用聚类算法寻找各类样本的聚类中心;其次,计算各类样本到其聚类中心的欧几里得距离,距离越小,样本的重要程度越高;最后,利用高斯核函数对样本进行加权。因此该方法可以准确的获得样本分布的先验信息(样本的重要程度)。接着,本文将加权策略PKW应用于AdaBoost.M2、SMOTEBoost、EE、RUSBoost、EUSBoost等算法,分别产生了PKWA、PKWS、PKWEE、PKWR、PKWE等改进算法。为了验证改进算法的有效性,本文在30个数据集上进行了实验,分别利用G-mean、Fmeasure、AUC等3个指标来衡量改进算法和现有算法的系统性能,并做了对比分析。实验结果表明,改进算法在每个指标上的系统性能整体上要优于现有的经典算法。为研究各算法在统计学意义上是否存在差异,针对每一个指标上的实验结果,本文利用Friedman检验和Nemenyi后续检验对其进行了统计学分析。