论文部分内容阅读
近年来,同时具有高维问题与不平衡问题的高维不平衡数据越来越多地出现在以生物信息、卫星图像为代表的新兴领域中,其复杂的数据特性给数据挖掘研究造成了极大的挑战。不平衡问题是指数据集中不同类别样本的数目差别很大,训练得到的分类器更偏向多数类而忽视了蕴含着重要信息的少数类样本的情况;高维问题是指由于数据特征空间维度过高而引起的分类模型训练效率低下、模型过度拟合以及数据可解释性差等情况。在高维数据的处理过程中,筛选出与分类目标高度相关且彼此冗余最小的低维特征子集对于提高学习效率和分类精度具有十分重要的意义。然而在数据同时存在类别分布不平衡的情况时,常用的特征选择算法往往倾向于选择对多数类有利的特征子集,从而导致分类算法在少数类上的分类效果较差。基于经典的包裹式特征选择算法SVM-RFE,本文在分析了其面对不平衡样本时所存在的类别偏向性问题后,提出了采用以F值优化为目标的结构化支持向量机模型权重评价特征的改进算法SSVM-RFE,使得算法在迭代消除特征的过程中能够考虑到特征对少数类样本分类正确率的重要性,从而实现了兼顾多数类与少数类的特征选择。由于基于分类器权重的特征排序方法只能反映出特征与类标之间的相关性,而不能解决特征之间的冗余问题。因此本文在使用SSVM-RFE算法删除掉大量与分类目标不相关的特征后,基于类型分解的框架将不平衡数据集构造成了多个平衡的数据子集,并使用希尔伯特-施密特相关性标准(HSIC)在这些数据子集上衡量特征间的无偏相关性,随后提出了一种针对特征组合问题改进的近似马尔科夫毯特征选择方法CBMBFS对冗余的特征进行删除。通过本文提出的两阶段特征选择方法SSVM-RFE-CBMBFS,在考虑样本不平衡分布的基础上,可以选出一组对于类标区分度最大且特征之间冗余度最小的特征子集。随后进行了一系列的实验,采用了多种不平衡数据分类评价指标来评价算法的分类结果并与其它文献中的算法进行比较,证明了该算法的有效性。