论文部分内容阅读
集成学习是通过构建不同的基学习器来完成机器学习任务的一种方法,近些年来,集成学习在机器学习中的占据重要位置。集成学习中精度和多样性是相互冲突的两个目标,在保证精度的同时就必须牺牲掉多样性,反之亦然,但是如何衡量这两个目标,产生“好而不同”的集成学习模型是当下研究的主要任务。传统集成学习构建集成模型的方式比较单一,随着群集智能算法的兴起,人们通过使用进化算法提高集成学习的泛化能力,进化算法可以对结合策略权重参数和基学习器的选择进行寻优,但这些有一定的局限性,这些算法不能够考虑精度和多样性两个目标构建集成学习模型,不能够充分找到等效的最优解,在集成学习模型性能提升方面有一定的局限。本论文针对现阶段集成学习存在的问题,提出了基于多模态多目标进化的集成学习器的选择及优化算法,主要包括以下内容:1)选择性构建集成学习模型;2)优化基学习器内部的连接权重构建集成学习模型。其中基学习器选择为神经网络,分别将基学习器和基学习器的内部参数进行编码,使用多模态多目标优化算法通过考虑精度和多样性两个目标构建集成学习模型,它能够找到等效的最优解,以此构建“好而不同”的集成学习模型。论文的主要工作如下:1.提出了一种基于多模态多目标进化的基学习器选择算法。使用神经网络作为基学习器,选择精度和多样性作为两个目标,对基学习器进行编码,选择性构建不同基学习器组合下的集成学习模型。然后在分类数据集上进行了实验与分析,实验结果表明多模态多目标算法能够为集成学习模型的构建提供更多的选择,在整体过程中没有降低集成学习模型的分类精度,并且获得的结果比多目标效果要好。2.提出了一种基于多模态多目标进化的基学习器参数优化算法。基学习器选择神经网络,使用多模态多目标优化算法对基学习器内部连接权值编码。然后对连接权值进行寻优。在分类数据集上验证所提算法的性能,实验结果表明此算法构建的集成学习模型有很好的泛化能力,解决了基学习器中的参数因为随机带来的不稳定。所提出的算法与其它经典算法做了对比实验和分析,发现所提算法能够在大多数数据集上取得较好的效果。本论文综合考虑精度和多样性两个目标去建立“好而不同”的集成学习模型,验证了研究集成学习具有很高的价值和意义,并根据群集智能算法和集成学习的契合点进行了分类总结,形象说明集成学习的优化问题具有多模态多目标属性,使用多模态多目标优化问题的必要性。