论文部分内容阅读
神经网络集成研究中个体网络生成方法应用较广的是Boosting类算法和Bagging类算法。Boosting类算法由于其权值的调整倾向于“困难”样本,所以在迭代过程中容易使某些“困难”样本累积,从而使集成输出结果不稳定;而Bagging算法所生成的个体网络之间互不相关,因此在不稳定训练情况下不会造成“困难”样本的累积,但由于Bagging算法不能针对性地训练的个体网络,使得该方法的精度无法控制。
为了提高神经网络集成算法的稳定性,使得集成算法在生成个体网络的过程中不会使“困难”样本形成过度积累,同时能针对性地训练个体网络以保证泛化精度。本文从Boosting类集成算法出发结合Bagging算法提出了BSLB(Boosting Seeded Local Bagging)新算法,将Boosting类集成算法中“困难”样本积累现象加以改进,采用基于邻居计算局部误差的方法能区分对待“困难”样本和“容易”样本,并通过邻居误差挑选“困难”样本作为种子样本,根据种子样本运用Lazy算法生成.Bagging二次集成的训练样本集,使得新生成的训练样本分布不再过分关注“困难”样本,从而保证了集成网络的稳定性,针对性地训练个体网络来保证其泛化精度。
实验结果表明,BSLB不会使得“困难”样本过分积累,从而较之AdaBoosting,Local Boosting集成算法对个体网络学习算法的依赖性更低,且不容易陷入局部最优解,特别是在抗噪性上有较为突出的表现;所得到的网络结构较之Local Boosting算法更为稳定,且BSLB算法所生成的个体网络之间的相关度较低,受到不稳定因素的影响小,因此在不稳定训练情况下的个体网络集成后的泛化误差较小。虽然采用了Local Boosting来计算邻居及局部误差较为耗时,但二次集成采用了Bagging方法,使得并行处理成为可能,对比串行处理显著地降低了时间消耗。