论文部分内容阅读
不平衡数据集分类问题是数据分类领域的研究热点。利用过采样技术对不平衡数据进行预处理从而帮助分类器识别出更多的少数类样本是一种常见的解决办法。由于已有的过采样方法普遍存在无法让数据集在平衡化处理前后数据密度趋于一致、产生新样本的区域过小、采样倍率较高时样本容易重叠等问题,所以本文针对以上问题进行改进而提出新的过采样算法以便更好地完成不平衡数据集分类任务。针对数字型的不平衡数据集,本文提出了两种全新的过采样方法以对数据集进行平衡化处理。因为文本型数据进行线性插值可解释性差,所以针对不平衡的文本型数据集分类问题本文提出了一种改进的文本表示方法来改善不平衡的文本数据分类结果。为了更好地解决不同类型的不平衡数据集分类问题,本文主要做了以下工作:1.针对现有过采样方法存在抽样前后数据密度不一致、抽样权重分配不合理、数据集稀疏性评价不合理等问题,本文利用样本间的最小距离来衡量数据集的稀疏性,并且距离越远的邻居越先被用于抽样,从而提出了一种基于少数类样本间最小和最大距离的过采样策略。这种过采样算法使得分类器在经过平衡化处理后的数据集上进行训练后能够识别出更多的少数类样本,并且正确识别多数类样本的能力也没有被削弱。2.针对SMOTE选择一个辅助样本会使新样本的合成空间较小导致采样倍率较高时容易产生样本重叠的问题,本文提出选择两个辅助样本与一个根样本形成一个三角形,从而扩大新样本合成的区域以降低样本重叠的概率,并且从边界样本中选择辅助样本使边界线更加清晰。实验结果表明,在14种不平衡数据集中85.7%的数据集上获得的G-mean值和78.6%的数据集上获得的F1值有所提高。3.由于文本进行线性插值可解释性差且文本表示是文本分类的重要环节,所以本文从文本表示入手解决不平衡的文本数据集分类问题。根据现有文本表示方法未充分考虑特征项区分各个类别的能力,提出一个新的概念类区分能力,并将它运用于不平衡数据集的文本表示。以TF-IDF算法为载体提出TF-IDF-ρ算法为各个特征项分配权重。F1值和召回率均有提高证明了本文提出的改进方案TF-IDF-ρ确实能够提高不平衡的文本数据集分类效果,其中F1值最高提升了4.07%。