论文部分内容阅读
随着计算机科学的不断发展,人们对机器学习的性能精度要求越来越高,同时需要处理的问题也越来越复杂,这意味着单一的学习模式已经不能完全满足人们对更高性能的需求。因此,集成学习作为一种新的机器学习算法被提出,即通过结合多个学习器来改善单个学习器的性能。由于集成学习能够明显地改善单个学习器的性能,因此从20世纪90年代起,集成学习成为机器学习领域的一个研究热点,而分类器集成相当于集成学习在有监督分类中的一个典型应用,其通过结合多个分类器的输出来改善单个分类器的性能。目前,分类器集成已被成功应用到人脸检测、遥感数据分类、医学图像处理、网络数据处理等众多实际应用问题中。对于分类器集成,个体分类器间的差异性和个体分类器自身的准确率是决定集成系统泛化误差的两个重要因素。简言之,同时增强个体间差异性和提高个体自身性能能降低集成系统的泛化误差。然而研究表明:在一个集成系统中,增强个体间差异性是以降低个体自身性能为代价的。这意味着平衡差异性和准确率两个因素不仅是构造集成算法的出发点也是难点。因此,为了构造一种有效的分类器集成系统,本文围绕着差异性、准确率和集成误差三个因素对如何结合多个分类器的输出进行了深入的研究,提出了几种分类器集成算法,主要的研究成果有:1.为了通过平衡差异性和准确率来提高集成性能,提出了一种贪婪优化选择集成算法。该算法同时从差异性和准确率两个因素出发,采用匹配追踪算法来寻找集成系统中个体分类器的最优组合。受启发于匹配追踪算法的原理,将集成系统中个体分类器的输出看作为基字典中的基函数,同时将正确标记看作为优化的目标值。然后,通过最小化基函数的线性组合和目标值之间的残差寻找到个体分类器的最优加权向量。理论分析表明:在每次迭代中,该算法能够通过给予相似的个体分类器接近零值的系数来去除该个体,同时在初次迭代中能够选择性能较好的个体分类器,并赋予其较大权重。实验结果表明该章提出的贪婪优化选择集成算法的性能优于其他集成算法。2.针对差异性和准确率两个因素,提出了一种变换选择分类器集成算法。该算法分别从差异性和准确率两个角度出发有效地平衡了两个因素,同时避免了平衡两个因素产生的困难。首先,为了增强集成系统的差异性,对个体分类器进行投影变换,获得新的个体分类器;然后,为了保证变换后集成系统中个体的性能,设计了一种基于两种性能评判准则的选择策略;最后,结合被选择的变换个体分类器的输出。实验结果表明该算法能够通过变换和选择有效地平衡差异性和准确率,从而获得更好的集成分类性能。3.为了避免基于差异性和准确率构造集成算法的困难,提出了一种基于二次型最大化的加权分类器集成算法。从集成分类器的最终目的出发,该算法直接对集成误差进行分析,代替了分析差异性和准确率两个因素。通过最小化集成系统的误差,寻找到对应集成个体分类器的最优加权向量。在该算法中,基于两个约束条件构造了最小化集成误差的目标函数,并通过引入一个已知加权向量将最小化目标函数的问题转换为最大化二次型的问题。理论分析表明:二次型值越大,使用其对应的加权向量获得的集成误差比已知加权向量获得的集成误差更小。实验结果表明该算法获得的集成分类性能优于其他加权集成算法。4.基于加权分类器集成框架出发,提出一种基于线性变换的集成算法。受启发于线性变换的原理,加权分类器集成的过程被认为相当于个体分类器线性变换的过程。因此,将线性变换的思想引入集成学习中,采用线性变换算法来寻找集成个体的最优加权向量。由于线性变换方法和集成学习出发点不同,因此针对集成学习的最终目的,使用正确标记代替线性变换算法中的均值来构造一个表示集成个体的相关矩阵,并且基于该相关矩阵获得了一个优化目标函数,并通过最大化该目标函数获得最优加权向量。理论分析表明:该算法构造的目标函数相当于个体分类器的准确率的加权和,目标函数值越大,则整个集成系统的准确率加权和就越大。实验结果表明本章算法相比其他加权算法能获得更好的分类性能。5.为了改善集成系统的性能,提出一种基于0-1矩阵分解的加权分类器集成算法。该算法使用0-1矩阵来表示集成系统的个体分类器,并通过对0-1矩阵进行奇异值分解获得集成个体的加权向量。根据分析可得:0-1矩阵的最大奇异值对应的右奇异向量的平方作为该算法的最优加权向量。理论表明,通过对0-1矩阵进行奇异值分解,其获得的奇异值越大,则对应该奇异值的加权向量获得的集成分类误差就越小。实验结果表明该算法相比其他加权算法即简单又有效。6.为了增强集成系统的差异性,提出一种异构分类器集成算法。该算法采用旋转森林策略结合两种不同模型分类器。在该算法中,首先采用旋转森林对原始样本集进行划分变换,获得新的样本集;然后通过特定的比例选择分类精度高的分类器算法作为基本个体分类器;最后结合两种模型下的预测标记。实验结果表明:该算法相比同质模型提高了集成系统的分类准确率,同时有效地实现了精度和速度互补。