论文部分内容阅读
集成学习是一种新的机器学习方式,它使用多个弱学习器来对同一个问题求解,能够显著地提高系统的泛化能力。因此,从20世纪90年代开始,对集成学习的研究及发展成为了一种趋势。经过众多学者的深入研究,集成学习已经成功应用于图像处理、Web信息挖掘、生物特征识别等多个领域。集成学习两大算法族:Boosting和Bagging目前存在的主要不足有:训练样本不够、集成规模大。本文主要进行了如下工作:1、提出一种限制输出模型规模的集成进化分类算法(Ensemble Evolve Classification Algorithm for Controlling the Size of Final Model, ECSM)。 Boosting算法族中比较知名的AdaBoost算法采用迭代机制,每一轮都产生一个精度较低的弱学习器,并更新训练样本的权重,使正确分类的样本权重减小,错分类样本的权重变大,最后采用加权投票集成输出模型。该算法经过多次迭代后会产生大量的弱学习器,模型规模过于庞大且不利于表达,因而不具备良好的可解释性。针对上述问题本文将遗传算法引入到AdaBoost算法当中,提出了ECSM算法。ECSM算法在训练过程中不再对样本进行累计赋值,而是从弱学习器入手,通过基因操作和评价函数找出每一轮最优的弱学习器,从而解决了最终模型规模过于庞大的问题。通过实验将该算法与传统的AdaBoost算法进行比较,验证了ECSM算法在保持分类精度的前提下,模型规模比AdaBoost的要小。2、提出基于一致性样本抽样的集成进化分类算法(Ensemble Evolve Classification Algorithm base on Consistency Sampling, EECS)。 ECSM算法可以在保持精度的前提下缩减模型规模,但对大样本数据的处理能力较弱,且在每一轮都需要进行全局搜索,导致模型建立时间较长。针对上述问题,本文设计了一个基于分类结果一致性计算公式,通过该公式计算出本轮的分类结果与之前分类结果的一致性值,然后用该值去更新训练样本的抽样概率,使得算法可以处理大样本数据,快速建立集成模型。在Weka下使用了5个UCI数据集对算法进行测试,实验结果表明,该算法在时间效率上明显优于ECSM算法。