论文部分内容阅读
现实生活中存在很多非平衡数据,其中的少数类往往更具有价值,但是传统的分类器通常都是以最大化总体分类精度为目标,从而不能有效地对少数类进行分类。解决非平衡数据分类问题的一个重要方向就是重采样技术,但是在数据集很小的情况下,重采样技术中的欠采样可能会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然有效地解决了类间不平衡问题,但是未考虑到少数类内样本的分布情况,如果对少数类样本进行无区别的过采样,有可能引起类内样本重叠,存在噪音的情况下可能扩大噪音的影响,以及未能有效地扩展少数类区域。这些情况都会造成少数类的分类精度下降。因此,本文针对目前过采样方法存在的问题做出了改进,主要工作如下:(1)由于现有的过采样方法有可能造成少数类的密集区域更加密集,甚至引起样本重叠。此外,存在噪音的情况下,现有的过采样方法可能会在噪音周围生成新样本,从而造成少数类样本分布更加混乱。针对这些问题,提出了一种基于样本分层的双向过采样方法,该方法首先基于最高密度点和类内平均距离将少数类样本划分成密集层和稀疏层,然后对密集层边界区样本和稀疏层的样本进行双向过采样。(2)针对现有过采样方法都是一次性合成少数类样本,利用的只有原始少数类样本拥有的少量信息,所合成的样本太过于集中。所以,为了逐渐扩展少数类区域以及使合成的少数类样本更加均匀有效,提出了一种递增删除式过采样方法。首先,利用近邻特性删除噪音点,然后利用SMOTE算法翻倍合成少数类样本,删除相对紧密的合成样本,将剩下的合成样本加入到原始的少数类样本中,构成种子样本。以此类推,不断迭代,最终使种子样本和多数类样本达到数量上的平衡。总之,本文针对非平衡数据进行了研究,提出了两种新的过采样算法,并且在真实数据集上进行了验证。实验结果显示,提出的算法在处理非平衡数据分类问题时具有一定优势,有效提升了少数类样本的分类精度,为解决现实生活中的非平衡数据分类问题提供了新思路与新方法。