论文部分内容阅读
分类问题是指通过对已知标签的样本集的学习,预测未知样本标签的问题。按样本所拥有的标签个数,分为单标签和多标签分类问题。目前,多标签分类在文本分类、基因功能分类和图像语义标注等领域已经得到了广泛的应用。在多标签分类中,分类器的性能与输入的特征密切相关。从理论上讲,不相关或冗余的特征降低同类样本间的相似度,从而降低了多标签分类器性能。因此,特征选择在多标签分类中发挥着至关重要的作用。目前,多标签特征选择根据是否包含后续的分类器,分为过滤式和包裹式两种方法。多标签分类有三类性能评价准则,分别是依据样本、标签和排序,且三类之间有一定的矛盾,而特征选择的目标是保持甚至改进分类器的性能。因此,特征选择问题实质上是一个多目标优化问题。本文提出了一种基于多目标优化的多标签包裹式特征选择算法(MMFS)。算法的主要思想是:将多标签k近邻分类器(ML-kNN)包含在改进的非劣分类遗传算法NSGA-II内,从多标签算法的性能评价准则中,选择两个目标函数,即最大化平均精度和最小化汉明损失,利用NSGA-II同时优化这两个目标函数,从而获得最优的特征子集。算法的收敛性实验分别在Yeast和Emotions数据集上进行。实验的结果验证本文提出的算法具有很好的收敛性。在特征选择算法的比较实验中,将本文的方法与特征排序、基于单目标的特征选择方法以及未作特征选择四种方法,在8个基准数据集,基于9个评价准则进行比较,实验结果表明本文提出的方法在其中6个评价准则上排名第一,其余3个准则上排名第二。同时,我们还比较了每种方法所产生的最优特征子集的维度,结果表明,在有效地提高了ML-kNN的分类性能的同时,本文的方法能得到较低维度的特征子集。