论文部分内容阅读
集成学习是被广泛应用的学习技术之一,它通常需要训练多个基学习器。而已有的应用及理论研究表明,删除集成系统中一些冗余或者分类性能较差的基学习器,可以有效提升集成学习的泛化性能。帕累托集成剪枝(Pareto Ensemble Pruning)[1]算法是一种可以将泛化性能和集成规模(即基学习器个数)作为双目标共同优化的一种方法。为了进一步提升帕累托集成剪枝的分类性能,本文做了相关研究,且研究内容主要包含以下两个部分,第一部分,帕累托集成剪枝算法只考虑了基分类器的精准度与集成规模,忽视了分类器之间的差异性,从而导致了分类器之间的相似度比较大。因此提出了融入差异性的帕累托集成剪枝算法,该算法将分类器的差异性与精准度综合为第一个优化目标,将集成规模作为第二个优化目标,从而实现多目标优化。另一部分,在不平衡数据集的处理中,利用最小最大模块化划分数据集,将最小最大模块化网络(Min-Max Modular Neural Network,M3)方法中的数据划分部分与帕累托集成剪枝算法结合,提出了帕累托集成剪枝在模块化网络中的应用(the Application of Pareto Ensemble Pruning in Modular Network,APEPM)方法。与传统的处理不平衡数据方法不同的是,其数据的平衡处理是采用最小最大模块化划分,得到相对平衡的数据子块,而后根据帕累托集成剪枝的分类器子集搜索方法得到最优分类器的子集,最终得到具有较高泛化性能的集成分类结果。实验证明融入差异性的集成剪枝算法与原始帕累托集成剪枝算法在集成规模相当的前提下,改进的算法能够获得较好的性能,且该性能的提升是由于差异性的融入取得的;而针对不平衡数据集的帕累托集成剪枝在模块化网络中的应用方法能够取得比传统的集成剪枝方法更优的分类性能。