论文部分内容阅读
摘要:在机器学习领域中,间隔扮演着重要的角色。可以用来度量分类的置信度;其理论泛化界也可用于指导分类算法的设计。近年来,该理论已广泛应用于特征选择,分类器训练和集成学习。实际上,间隔思想表明如果在训练阶段模型能够产生大的间隔,那么分类任务将有好的置信度和高可靠性。文中介绍大间隔分类学习方法的研究现状, 并给出了其存在的问题。
关键词:间隔; 分类学习; 机器学习
中图分类号:TP39141 文献标识码:A文章编号:2095-2163(2013)06-0044-04
0引言
在机器学习领域中,间隔扮演着重要的角色,可以用来度量分类器的置信度而其理论泛化界也可用于指导分类算法的设计。该理论已经广泛应用于特征选择、分类器构建、集成学习等领域。间隔的概念由Vapnik首次提出,并将其应用于构建支持向量机(Support Vector Machine)[1]。支持向量机利用最大分类间隔来实现线性分类任务。1999年,Friedman指出间隔分布是用来指导分类集成学习构造稳定模型的重要度量[2]。随着间隔的泛化界的提出,从统计学习理论上解释了最大分类间隔实际意义。实际上,间隔思想表明如果在训练阶段模型能够产生大的间隔,那么分类任务将有好的置信度和高可靠性。在过去的十几年中,该理论在模式识别和机器学习领域引起了高度关注。
本文首先从特征选择、SVM分类器的构建和分类集成学习三个方法来阐述基于间隔方法的研究现状。在此基础上,给出了基于间隔分类学习中存在的问题并探讨其未来发展方向。
1基于间隔的特征选择方法的研究现状
近年来在机器学习领域,间隔作为代表性的特征评估策略之一已成为研究热点。间隔概念首次是由Vapnik 提出为了构建SVM模型,这是用最大化类间的分类间隔来寻找最优可分超平面。1999年,Shawe Taylor 和Cristianini在统计学习理论层面上证明了SVM中分类间隔是与其泛化误差的上界是紧密相关的[3]。2002年,Crammer等人讨论了Adaboost 算法中的分类泛化误差,并指出其VC维与基分类器间的间隔分布相关,从而将间隔理论进一步推广到集成学习范畴[4]。2004年,Gilad Bachrach等人开发了两种基于间隔特征选择方法,并通过大间隔理论证明了这两种方法的最近邻无限样本泛化界[5]。因此,从统计学习理论角度来看,分类间隔可认为是一种用于衡量分类置信度的距离测度。近年来,大量基于间隔的特征选择方法正在相继不断地提出。根据其构造方式不同,间隔可分为两类。一类称之为样本间隔(Sample Margin),用于度量样本到分类边界的距离;另一类假设间隔(Hypothesis Margin)则用来度量假设类别的距离。
研究中,可以将基于间隔的特征选择方法大体分为三类。第一类是通过直接最大化间隔来进行特征选择,如Relief[6]、Simba[5]等等。第二类是通过最小化分类间隔损失来获得搜索特征子集最佳的解决方案。2004年,Andrew等人提出了两种基于Logistic 损失的特征选择方法并应用于SVM[7],其间分别采用了L1 范数和L2范数正则化技术;实验结果显示使用L1范数正则化方法相对而言是比较有效的。2008 年,Park等人提出了一种快速的特征选择方法[8],可利用Logistic损失来光滑近似Hinge损失并应用于支持向量机。2009 年,Li等人提出了一种基于近邻规则的特征选择方法[9]。最后一类是利用间隔分类器的启发式的特征选择方法,其中最具代表性的当属SVM-RFE等算法。这三类方法中,第一和第二类方法是基于Filter模型的方法,而且均是独立于分类器的评估特征方法并且执行效率较高;但第三类方法的计算时间复杂性较高,从而限制其实用性。
2基于间隔的分类学习算法的研究现状
至今为止,支持向量机(SVM)作为大间隔的分类学习模型在机器学习领域备受关注。SVM的思想是要找到一个线性可分超平面,并使用最大间隔来正确地区分二类训练数据,如此即可有效地减少对测试样本分类错误的风险。这种SVM可将其称作硬间隔SVM 。但是在训练阶段搜索最优超平面时,由于可分边界附近一些错分样本的影响,原有硬间隔SVM 中最大间隔的原则将失效。为了解决上述问题,软间隔SVM利用松散阈值来得到一个近似线性可分超平面,实现了最大化间隔并最小化松散阈值的和来最优化学习模型的参数。对于线性不可分问题,核函数(Kernal Function) 已经引入到SVM 模型构建中并获得巨大成功。基于核函数映射的SVM 是将原有的数据映射到一个高维特征空间中,并在其上构造最优分类超平面。
随着支持向量机研究的深入,对于训练抗噪声的SVM学习模型展开了广泛的讨论。1999年,LS-SVM获得提出[10],可利用平方Hinge损失来替换软间隔SVM 中的Hinge损失来训练SVM。但在统计学习理论中,Hinge损失要比平方Hinge损失具有更好的鲁棒性和稀疏性。针对LS-SVM 中的鲁棒性较差的问题WLS-SVM[11] 也相继提出,利用了Hempel鲁棒估计获得平方损失的权值。2002年,Song等人利用样本到类别质心的平方距离来替代LS-SVM 中的平方损失,从而构建了一种鲁棒的SVM,并将其应用到弹孔图像分类[12]。2006 年,Xu等人将孤立点检测与大间隔理论相结合构造出一种斜坡损失来训练SVM,可以表达一个凸松弛损失训练问题并通过半定规划来求解[13]。2007年,Wu等人构造了一种截断的Hinge 损失,通过对远离该类的异常样本用不敏感损失值来惩罚,从而使其获得较好鲁棒性和较少的支持向量[14]。2008年,Wang等人利用Huber损失来光滑文献[13]中斜坡损失,然后在原始空间中训练支持向量机,但其中需调优的参数过多,从而限制了其实用性[15]。2010年,Ma等人将中位数回归引入到Hinge损失中并得到了一种鲁棒的支持向量机[16],对于两类分类问题总的损失惩罚由两个属于不同类的中位数损失的和来衡量。此外,许多研究者将模糊粗糙集理论引入到SVM 学习模型中来改善其鲁棒性,从而构建出许多模糊SVM模型(FSVM)[17-18]。这些研究的主要思想是通过计算样本附属于类别的隶属度来确定软间隔SVM中的Hinge 损失对该样本的松散系数, 由于隶属度较低的样本多为异常和噪声点,因此该模型可以有效改善噪声对SVM 模型的不良影响。FSVM一个致命的缺陷在于不能够给出一个通用化的原则来确定样本的隶属度值即SVM 损失项中样本的松散系数,而都是通过经验来选取模糊函数来计算隶属度。 3分类集成学习方法的研究现状
集成学习的思想是训练多个弱学习器,并将其相应结合后来进行决策或预测,从而改善单个学习模型的预测能力。集成学习的实质是对多个学习器的结合方式进行研究。近年来大量有关文献被发表,这些文献详细地讨论了集成方法的理论依据以及实现过程。在过去的几十年中,涌现了大量的集成学习算法。Boosting[19]是被最广泛使用的一种提高分类学习准确度的集成方法,可视作一个模型平均方法。Boost-ing产生一系列的样本子集来训练基分类,每次训练样本子集中由基分类器错分的样本将给其分配更高的权值,从而提高在下一次基分类器训练生成的训练样本子集中抽取该错分样本的概率。如此迭代下去产生多个基分类器,最终的分类结果将由多个基分类器加权融合而获得。1992年,Wolpert 介绍了一种最小化泛化错误率的集成方法,被称作叠加法[20]。其思想是将基学习器分布在多个层次上,每一层中学习器的输出作为下一层的输入,利用多层的学习器来完成学习任务。1996年,Breiman 提出了Bagging(Bootstrap Aggregation) 集成方法[21]。Bagging最初是为决策树模型而设计的,但也可以使用在任何类型的分类或回归模型中。该方法通过Bootstrap采样从训练集中产生出多个训练子集,然后利用这些子集来分别训练一个基分类或回归模型。对于回归问题,Bagging的输出是多个回归模型预测值的平均;而对于分类问题则用投票法来决定样本的类别。1998年,Ho等人用随机子空间方法构建决策森林[22];在数据集中存在大量的特征时,该方法效果良好。Logitboost[23]是由Friedman等人提出一种Boosting算法,通过在分类器的迭代中使用Logistic 回归模型来确定样本的权值,而获得了良好的效果。原因在于Logistic 回归模型描述的是一个或多个因素之间的概率关系,对于Boosting算法而言迭代中样本的权值可以表示为一个概率形式。1999 年,Schapire介绍了一种Boosting算法叫做AdaBoost[24],通过分析其泛化界解释Boosting算法的潜在理论。同年,Friedman 将梯度思想[25]引入到Boosting学习中,在每个迭代中使用潜在损失函数的梯度为样本分配权值,由此设计出了一系列基于梯度的Boosting算法。之后,为了解决Adaboost 算法对噪声数据较敏感问题,Freund 等人提出了一种鲁棒的Boosting算法叫做Brownboost[26],该法利用无限水平近似技术来构造出一个鲁棒的损失函数,然后用其来计算在每次迭代过程中样本的权重。2003年,Kim等人分别用Bagging和Boosting来构建SVM分类集成系统[27],实验结果显示集成后的分类系统比传统的SVM 分类方法具有更好的分类性能。2005年,Rosset等人提出了一种利用样本的权衰减函数来改善基于梯度的Boosting方法的鲁棒性,这个权衰减函数融入了Huber估计的思想[28]。2008 年,Zhang等人提出了一个局部Boosting算法[29],这是一种基于重采样的AdaBoost方法,实验结果显示该算法比AdaBoost算法具有更好的稳健性。
对于集成学习结合方式的有效性,许多学者进行了讨论。1999年,Opitz等人比较了Bagging和两个Boosting算法[30](AdaBoost,Arching),比较后发现在一个低噪声环境下,Boosting分类性能优于Bagging,但Bagging 的鲁棒性更强。2000年,Jain等人以一组分类器的结果如何结合改进总体分类精度为目标来讨论分类器组合方式问题[31]。研究者将这一问题针对不同的特征集,不同的训练样本集,不同的分类方法进行分析。实验结果显示对于相同的特征集,结合不同的分类器没有任何优势,但在不同特征集下构建出的分类系统却效果明显。同年,Kuncheva等人采用遗传算法设计了两个分类器融合系统[32],设计发现对于可能有重叠的特征子集,分类集成系统显现出良好的性能,但对于不相交的特征子集分类准确率却难以得到真正改善。2002年,Skurichina讨论了分类集成决策的稳定性问题[33],结果显示Bagging可以有效改善分类的稳定性。2007年,Anne等研究了基分类器的选择和融合方法对分类集成系统的影响问题[34],并得到一个重要的实验结论:选择各异的基分类器对提升分类集成系统的性能是有帮助的。
4大间隔分类学习存在的问题
目前,大间隔分类学习存在的主要问题有:
(1)噪声是普遍存在的,基于间隔的特征选择方法对噪声比较敏感,未来对基于间隔的特征选择方法的抗噪性研究是一个很好的研究方向。
(2)对于现有鲁棒的SVM分类学习方法而言,这些方法已经有效地解决了分类模型对噪声的影响,但其训练模型的时间复杂性较高,由此而限制了其实用性。这些问题,将有待于进一步研究。
5结束语
在机器学习领域中,间隔扮演着重要的角色,这是对分类置信度的一种刻画,可用于估计分类学习算法的泛化误差界和指导分类算法的设计。近年来,该理论已广泛应用于特征选择,分类器训练和集成学习。本文论述大间隔分类学习方法的研究现状,并给出了其存在的问题,为未来的研究有一定的指导意义。
参考文献:
[1]CORTES C, VAPNIK V. Support-vector networks[J]. Machine learning, 1995, 20(3):273–297.
[2]SCHAPIRE R E, FREUND Y, BARTLETT P, et al. Boosting the margin: a new explanation for the effectiveness of voting methods[J]. Annals of Statistics, 1998, 26:1651–1686. [3]BARTLETT P, SHAWE-TAYLOR J. Generalization performance of support vector machines and other pattern classifiers[J]. Advances in Kernel Methods—Support Vector Learning, 1999:43–54.
[4]CRAMMER K, GILAD R B, NAVOT A, et al. Margin Analysis of the Lvq Algorithm[C]//Proceeding 17th Conference on Neural Information Processing Systems, 2002:462–469.
[5]GILAD-BACHRACH R, NAVOT A, TISHBY N. Margin based feature selection-theory and algorithms[C]//Proceedings of the 21st International Conference on Machine Learning, 2004:40–48.
[6]KONONENKO I, RUAN D, FREUND Y. Estimating attributes analysis and extensions of RELIEF[C]//Proceedings of European Conference Machine Learning, 1994:171–182.
[7]ANDREW Y N. Feature selection L1 vs. L2 regularization, and rotational invariance[C]//Proceedings of the 21st International Conference on Machine Learning, 2004:171–182.
[8]PARK S Y, LIU Y. Robust penalized Logistic regression with truncated loss functions[J]. Canadian Journal of Statistics, 2011, 39(2):300–323
[9]LI Y, LU B L. Feature selection based on loss-margin of nearest neighbor classification[J]. Pattern Recognition, 2009, 42:1914–1921.
[10]SUYKENS J, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3):293–300.
[11]SUYKENS J, BRABANTER J, LUKAS L, et al. Weighted least squares support vector machines: robustness and sparse approximation[J]. Neurocomputing, 2002,8:85–105.
[12]SONG Q, HU W, XIE W. Robust support vector machine with Bullet Hole image classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C:Applications and Reviews, 2002, 32(4):440–448.
[13]XU L, CRAMMER K, SCHUURMANS D. Robust support vector machine training via convex outlier ablation[C]//Proceedings of the 21st American Association for Artificial Intelligence, 2006:413–420.
[14]WU Y, LIU Y F. Robust truncated hinge loss support vector machines[J]. IEEE Transaction Pattern Analysis and Machine Intelligence, 2007, 102(479):974–983.
[15]WANG L, JIAA H D, LI J. Training Robust support vector machine with smooth ramp loss in the primal space[J]. Neurocomputing, 2008, 71(479):3020–3025.
[16]MA Y F, HUANG X L, WANG S N. Robust support vector machine using least median loss penalty [C]//Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory, 2011:18–26.
[17]JIANG X F, ZHANG Y, CHENG L J. Fuzzy SVM with a new fuzzy membership function[J]. Neural Computing
关键词:间隔; 分类学习; 机器学习
中图分类号:TP39141 文献标识码:A文章编号:2095-2163(2013)06-0044-04
0引言
在机器学习领域中,间隔扮演着重要的角色,可以用来度量分类器的置信度而其理论泛化界也可用于指导分类算法的设计。该理论已经广泛应用于特征选择、分类器构建、集成学习等领域。间隔的概念由Vapnik首次提出,并将其应用于构建支持向量机(Support Vector Machine)[1]。支持向量机利用最大分类间隔来实现线性分类任务。1999年,Friedman指出间隔分布是用来指导分类集成学习构造稳定模型的重要度量[2]。随着间隔的泛化界的提出,从统计学习理论上解释了最大分类间隔实际意义。实际上,间隔思想表明如果在训练阶段模型能够产生大的间隔,那么分类任务将有好的置信度和高可靠性。在过去的十几年中,该理论在模式识别和机器学习领域引起了高度关注。
本文首先从特征选择、SVM分类器的构建和分类集成学习三个方法来阐述基于间隔方法的研究现状。在此基础上,给出了基于间隔分类学习中存在的问题并探讨其未来发展方向。
1基于间隔的特征选择方法的研究现状
近年来在机器学习领域,间隔作为代表性的特征评估策略之一已成为研究热点。间隔概念首次是由Vapnik 提出为了构建SVM模型,这是用最大化类间的分类间隔来寻找最优可分超平面。1999年,Shawe Taylor 和Cristianini在统计学习理论层面上证明了SVM中分类间隔是与其泛化误差的上界是紧密相关的[3]。2002年,Crammer等人讨论了Adaboost 算法中的分类泛化误差,并指出其VC维与基分类器间的间隔分布相关,从而将间隔理论进一步推广到集成学习范畴[4]。2004年,Gilad Bachrach等人开发了两种基于间隔特征选择方法,并通过大间隔理论证明了这两种方法的最近邻无限样本泛化界[5]。因此,从统计学习理论角度来看,分类间隔可认为是一种用于衡量分类置信度的距离测度。近年来,大量基于间隔的特征选择方法正在相继不断地提出。根据其构造方式不同,间隔可分为两类。一类称之为样本间隔(Sample Margin),用于度量样本到分类边界的距离;另一类假设间隔(Hypothesis Margin)则用来度量假设类别的距离。
研究中,可以将基于间隔的特征选择方法大体分为三类。第一类是通过直接最大化间隔来进行特征选择,如Relief[6]、Simba[5]等等。第二类是通过最小化分类间隔损失来获得搜索特征子集最佳的解决方案。2004年,Andrew等人提出了两种基于Logistic 损失的特征选择方法并应用于SVM[7],其间分别采用了L1 范数和L2范数正则化技术;实验结果显示使用L1范数正则化方法相对而言是比较有效的。2008 年,Park等人提出了一种快速的特征选择方法[8],可利用Logistic损失来光滑近似Hinge损失并应用于支持向量机。2009 年,Li等人提出了一种基于近邻规则的特征选择方法[9]。最后一类是利用间隔分类器的启发式的特征选择方法,其中最具代表性的当属SVM-RFE等算法。这三类方法中,第一和第二类方法是基于Filter模型的方法,而且均是独立于分类器的评估特征方法并且执行效率较高;但第三类方法的计算时间复杂性较高,从而限制其实用性。
2基于间隔的分类学习算法的研究现状
至今为止,支持向量机(SVM)作为大间隔的分类学习模型在机器学习领域备受关注。SVM的思想是要找到一个线性可分超平面,并使用最大间隔来正确地区分二类训练数据,如此即可有效地减少对测试样本分类错误的风险。这种SVM可将其称作硬间隔SVM 。但是在训练阶段搜索最优超平面时,由于可分边界附近一些错分样本的影响,原有硬间隔SVM 中最大间隔的原则将失效。为了解决上述问题,软间隔SVM利用松散阈值来得到一个近似线性可分超平面,实现了最大化间隔并最小化松散阈值的和来最优化学习模型的参数。对于线性不可分问题,核函数(Kernal Function) 已经引入到SVM 模型构建中并获得巨大成功。基于核函数映射的SVM 是将原有的数据映射到一个高维特征空间中,并在其上构造最优分类超平面。
随着支持向量机研究的深入,对于训练抗噪声的SVM学习模型展开了广泛的讨论。1999年,LS-SVM获得提出[10],可利用平方Hinge损失来替换软间隔SVM 中的Hinge损失来训练SVM。但在统计学习理论中,Hinge损失要比平方Hinge损失具有更好的鲁棒性和稀疏性。针对LS-SVM 中的鲁棒性较差的问题WLS-SVM[11] 也相继提出,利用了Hempel鲁棒估计获得平方损失的权值。2002年,Song等人利用样本到类别质心的平方距离来替代LS-SVM 中的平方损失,从而构建了一种鲁棒的SVM,并将其应用到弹孔图像分类[12]。2006 年,Xu等人将孤立点检测与大间隔理论相结合构造出一种斜坡损失来训练SVM,可以表达一个凸松弛损失训练问题并通过半定规划来求解[13]。2007年,Wu等人构造了一种截断的Hinge 损失,通过对远离该类的异常样本用不敏感损失值来惩罚,从而使其获得较好鲁棒性和较少的支持向量[14]。2008年,Wang等人利用Huber损失来光滑文献[13]中斜坡损失,然后在原始空间中训练支持向量机,但其中需调优的参数过多,从而限制了其实用性[15]。2010年,Ma等人将中位数回归引入到Hinge损失中并得到了一种鲁棒的支持向量机[16],对于两类分类问题总的损失惩罚由两个属于不同类的中位数损失的和来衡量。此外,许多研究者将模糊粗糙集理论引入到SVM 学习模型中来改善其鲁棒性,从而构建出许多模糊SVM模型(FSVM)[17-18]。这些研究的主要思想是通过计算样本附属于类别的隶属度来确定软间隔SVM中的Hinge 损失对该样本的松散系数, 由于隶属度较低的样本多为异常和噪声点,因此该模型可以有效改善噪声对SVM 模型的不良影响。FSVM一个致命的缺陷在于不能够给出一个通用化的原则来确定样本的隶属度值即SVM 损失项中样本的松散系数,而都是通过经验来选取模糊函数来计算隶属度。 3分类集成学习方法的研究现状
集成学习的思想是训练多个弱学习器,并将其相应结合后来进行决策或预测,从而改善单个学习模型的预测能力。集成学习的实质是对多个学习器的结合方式进行研究。近年来大量有关文献被发表,这些文献详细地讨论了集成方法的理论依据以及实现过程。在过去的几十年中,涌现了大量的集成学习算法。Boosting[19]是被最广泛使用的一种提高分类学习准确度的集成方法,可视作一个模型平均方法。Boost-ing产生一系列的样本子集来训练基分类,每次训练样本子集中由基分类器错分的样本将给其分配更高的权值,从而提高在下一次基分类器训练生成的训练样本子集中抽取该错分样本的概率。如此迭代下去产生多个基分类器,最终的分类结果将由多个基分类器加权融合而获得。1992年,Wolpert 介绍了一种最小化泛化错误率的集成方法,被称作叠加法[20]。其思想是将基学习器分布在多个层次上,每一层中学习器的输出作为下一层的输入,利用多层的学习器来完成学习任务。1996年,Breiman 提出了Bagging(Bootstrap Aggregation) 集成方法[21]。Bagging最初是为决策树模型而设计的,但也可以使用在任何类型的分类或回归模型中。该方法通过Bootstrap采样从训练集中产生出多个训练子集,然后利用这些子集来分别训练一个基分类或回归模型。对于回归问题,Bagging的输出是多个回归模型预测值的平均;而对于分类问题则用投票法来决定样本的类别。1998年,Ho等人用随机子空间方法构建决策森林[22];在数据集中存在大量的特征时,该方法效果良好。Logitboost[23]是由Friedman等人提出一种Boosting算法,通过在分类器的迭代中使用Logistic 回归模型来确定样本的权值,而获得了良好的效果。原因在于Logistic 回归模型描述的是一个或多个因素之间的概率关系,对于Boosting算法而言迭代中样本的权值可以表示为一个概率形式。1999 年,Schapire介绍了一种Boosting算法叫做AdaBoost[24],通过分析其泛化界解释Boosting算法的潜在理论。同年,Friedman 将梯度思想[25]引入到Boosting学习中,在每个迭代中使用潜在损失函数的梯度为样本分配权值,由此设计出了一系列基于梯度的Boosting算法。之后,为了解决Adaboost 算法对噪声数据较敏感问题,Freund 等人提出了一种鲁棒的Boosting算法叫做Brownboost[26],该法利用无限水平近似技术来构造出一个鲁棒的损失函数,然后用其来计算在每次迭代过程中样本的权重。2003年,Kim等人分别用Bagging和Boosting来构建SVM分类集成系统[27],实验结果显示集成后的分类系统比传统的SVM 分类方法具有更好的分类性能。2005年,Rosset等人提出了一种利用样本的权衰减函数来改善基于梯度的Boosting方法的鲁棒性,这个权衰减函数融入了Huber估计的思想[28]。2008 年,Zhang等人提出了一个局部Boosting算法[29],这是一种基于重采样的AdaBoost方法,实验结果显示该算法比AdaBoost算法具有更好的稳健性。
对于集成学习结合方式的有效性,许多学者进行了讨论。1999年,Opitz等人比较了Bagging和两个Boosting算法[30](AdaBoost,Arching),比较后发现在一个低噪声环境下,Boosting分类性能优于Bagging,但Bagging 的鲁棒性更强。2000年,Jain等人以一组分类器的结果如何结合改进总体分类精度为目标来讨论分类器组合方式问题[31]。研究者将这一问题针对不同的特征集,不同的训练样本集,不同的分类方法进行分析。实验结果显示对于相同的特征集,结合不同的分类器没有任何优势,但在不同特征集下构建出的分类系统却效果明显。同年,Kuncheva等人采用遗传算法设计了两个分类器融合系统[32],设计发现对于可能有重叠的特征子集,分类集成系统显现出良好的性能,但对于不相交的特征子集分类准确率却难以得到真正改善。2002年,Skurichina讨论了分类集成决策的稳定性问题[33],结果显示Bagging可以有效改善分类的稳定性。2007年,Anne等研究了基分类器的选择和融合方法对分类集成系统的影响问题[34],并得到一个重要的实验结论:选择各异的基分类器对提升分类集成系统的性能是有帮助的。
4大间隔分类学习存在的问题
目前,大间隔分类学习存在的主要问题有:
(1)噪声是普遍存在的,基于间隔的特征选择方法对噪声比较敏感,未来对基于间隔的特征选择方法的抗噪性研究是一个很好的研究方向。
(2)对于现有鲁棒的SVM分类学习方法而言,这些方法已经有效地解决了分类模型对噪声的影响,但其训练模型的时间复杂性较高,由此而限制了其实用性。这些问题,将有待于进一步研究。
5结束语
在机器学习领域中,间隔扮演着重要的角色,这是对分类置信度的一种刻画,可用于估计分类学习算法的泛化误差界和指导分类算法的设计。近年来,该理论已广泛应用于特征选择,分类器训练和集成学习。本文论述大间隔分类学习方法的研究现状,并给出了其存在的问题,为未来的研究有一定的指导意义。
参考文献:
[1]CORTES C, VAPNIK V. Support-vector networks[J]. Machine learning, 1995, 20(3):273–297.
[2]SCHAPIRE R E, FREUND Y, BARTLETT P, et al. Boosting the margin: a new explanation for the effectiveness of voting methods[J]. Annals of Statistics, 1998, 26:1651–1686. [3]BARTLETT P, SHAWE-TAYLOR J. Generalization performance of support vector machines and other pattern classifiers[J]. Advances in Kernel Methods—Support Vector Learning, 1999:43–54.
[4]CRAMMER K, GILAD R B, NAVOT A, et al. Margin Analysis of the Lvq Algorithm[C]//Proceeding 17th Conference on Neural Information Processing Systems, 2002:462–469.
[5]GILAD-BACHRACH R, NAVOT A, TISHBY N. Margin based feature selection-theory and algorithms[C]//Proceedings of the 21st International Conference on Machine Learning, 2004:40–48.
[6]KONONENKO I, RUAN D, FREUND Y. Estimating attributes analysis and extensions of RELIEF[C]//Proceedings of European Conference Machine Learning, 1994:171–182.
[7]ANDREW Y N. Feature selection L1 vs. L2 regularization, and rotational invariance[C]//Proceedings of the 21st International Conference on Machine Learning, 2004:171–182.
[8]PARK S Y, LIU Y. Robust penalized Logistic regression with truncated loss functions[J]. Canadian Journal of Statistics, 2011, 39(2):300–323
[9]LI Y, LU B L. Feature selection based on loss-margin of nearest neighbor classification[J]. Pattern Recognition, 2009, 42:1914–1921.
[10]SUYKENS J, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3):293–300.
[11]SUYKENS J, BRABANTER J, LUKAS L, et al. Weighted least squares support vector machines: robustness and sparse approximation[J]. Neurocomputing, 2002,8:85–105.
[12]SONG Q, HU W, XIE W. Robust support vector machine with Bullet Hole image classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C:Applications and Reviews, 2002, 32(4):440–448.
[13]XU L, CRAMMER K, SCHUURMANS D. Robust support vector machine training via convex outlier ablation[C]//Proceedings of the 21st American Association for Artificial Intelligence, 2006:413–420.
[14]WU Y, LIU Y F. Robust truncated hinge loss support vector machines[J]. IEEE Transaction Pattern Analysis and Machine Intelligence, 2007, 102(479):974–983.
[15]WANG L, JIAA H D, LI J. Training Robust support vector machine with smooth ramp loss in the primal space[J]. Neurocomputing, 2008, 71(479):3020–3025.
[16]MA Y F, HUANG X L, WANG S N. Robust support vector machine using least median loss penalty [C]//Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory, 2011:18–26.
[17]JIANG X F, ZHANG Y, CHENG L J. Fuzzy SVM with a new fuzzy membership function[J]. Neural Computing