论文部分内容阅读
集成学习是近二十年来机器学习领域中热点研究问题之一。通过组合多个基学习器可以显著提高泛化性能,但是基学习器个数的增加将导致预测速度下降和需要的存储空间增多。另一方面,有选择地集成部分基学习器能够加快预测速度,减少存储空间,更重要的是,理论分析和实验结果表明,它能够进一步提高原有集成系统的泛化能力,得到更好的预测效果。因此选择性集成学习成为该领域的一个重要研究内容。本文从间隔和置信度的角度探究选择性集成学习算法的设计和应用,其中主要做了以下几个方面的研究工作:1.基于间隔理论,提出了一种新的静态选择性集成学习算法:DRMF。它由DoubleRotation和MarginBasedPruning两个部分构成,其出发点是通过优化训练样本的间隔分布提升泛化性能。其中,DoubleRotation通过训练一组具有较大差异性的基分类器优化间隔分布,而MarginBasedPruning通过最小化基于间隔的分类损失有针对性地选择部分基分类器构成最终的集成系统。详细讨论了DRMF中的各个参数对其分类性能的影响以及DRMF对噪声的稳健性。通过实验对比验证了DRMF的分类性能,并从间隔和差异性的角度解释了它能够提升分类性能的原因。2.将基分类器的分类置信度引入集成间隔,进一步推广了间隔的定义。在此基础上详细探究了分类置信度在选择性集成学习中的作用。首先展示了基于不同间隔学习基分类器权值的差异,解释了引入分类置信度的必要性。然后探究了在基于排序的选择性集成中如何利用分类置信度,给出了一种能够有效利用分类置信度的算法:EP-CC。最后从不同角度探究了该算法能够提升分类性能的原因以及分类置信度在其中所发挥的作用。3.通过优化所选基分类器的个数,提出了一种新的动态选择性集成算法:DES-NC。虽然它为不同的样本选择相同个数的基分类器,但不同样本所对应的基分类器子集并不相同。首先解释了将分类置信度引入动态集成选择的动机,详细介绍了DES-NC选择基分类器的过程。然后验证了该算法的合理性。最后从优化间隔分布的角度详细分析了该算法能够提升分类性能的原因。4.基于置信度阈值提出了一种新的动态选择性集成算法:DES-TV。相对于DES-NC,DES-TV并不需要对不同样本选择相同个数的基分类器,因此选择的方式更加灵活。通过实验展示了分类精度随分类阈值变化的波动情况,分析了不同损失函数对其性能的影响。给出了一种新的基于回归器输出结果的置信度计算方式,在此基础上将DES-TV应用于选择性回归集成,并且在风速预报中验证了它的预测性能。