论文部分内容阅读
集成学习是机器学习领域中首要热门方向。它是通过某种方式组合多个学习器解决同一问题并且能够显著提升整个学习系统的泛化性能。集成学习由最初的萌芽经过众多相关领域的研究人员多年不懈的努力逐步发展起来,并取得很多成果。但与实际的要求还存在一定差距,为此仍需要更深入的分析与研究。在传统的集成学习领域中,现有研究主要关注如何构建基学习器以及减少训练损失对基学习器进行有效集成,很少关注测试样本与基学习器的适应性。在本文中,通过传统的集成学习与惰性学习的关系建立测试样本、基学习器两者之间的联系,提出了基于K-means的自适应AdaBoost与基于LDA主题聚类的自适应随机森林两种算法。1.提出基于K-means聚类的自适应AdaBoost算法。该算法是基于AdaBoost算法生成的基学习器上实现的。其中,AdaBoost算法在训练基学习器的过程中,会逐步增加误分类样本的权重,相对将导致被正确分类的样本权重过低,为此训练得到的基学习器对倾向于样本空间的部分区域较好效果,而忽略了其他区域的样本。进而提出,先将训练样本进行聚类,并计算每个基学习器对所有类簇的适应度(错误率)。当一个未知样本进入测试阶段,计算当前样本与各个类簇的相似度,并结合每个基学习器对各个类簇的适应度,从而可以赋予各个基学习器与当前测试样本相适应的权重。本算法在10个UCI标准数据集上进行实验,且实验结果表明该算法的分类性能优于传统的AdaBoost算法。2.提出基于LDA主题聚类的自适应随机森林算法。该算法首先利用随机森林算法生成的基学习器对训练集构建残差空间,接着按照一定规则把残差空间转化为文档集并使用LDA主题模型产生与基学习器相关的元特征,然后将这些元特征与基学习器模型基于FWLS(Feature-Weighted Linear Stacking)算法进行学习,进而得到一系列系数,将该类系数与相应的元特征相结合,可求得每个基学习器对应的权重。在测试阶段,通过测试样本与训练样本的联系,求得当前测试样本与各个基学习器相适应的元特征,结合之前求得的系数,各个基学习器也相应得到与当前测试样本适应的权重。从而可根据不同的测试样本动态地给予基学习器合适的权重。本算法在10个UCI标准数据集上进行实验,且实验结果也表明该算法的分类性能优于传统的随机森林算法。