论文部分内容阅读
在当前的大数据时代,增量学习作为一种能增量处理数据的方法变得愈发重要,而概念漂移问题则是增量学习中亟待解决的一个关键问题。目前为止,尽管有很多算法已经被提出用来解决这个问题,但是仍旧难以做到快速有效的响应漂移的发生。在本文中,我们的主要研究就是如何有效解决增量学习中的概念漂移问题。我们首先提出了一种新的叫做 STIL(Selective Transfer Incremental Learning)的方法来解决概念漂移这个难题。STIL在经典的基于数据块集成算法基础上使用了一种选择性迁移的策略。以这种方式,STIL在通过迁移学习很好的适应新概念的同时,制定了适当的选择策略有效防止了迁移学习过程中可能发生的负迁移和过拟合问题。我们将这个算法在15个合成数据集和3个真实数据集上进行了评估,实验结果显示STIL在几乎所有数据集上都好于其它5个先进的相关算法。其次,我们研究了子模型适应性对集成模型应对概念漂移的影响。并通过实验分析发现:包含一批具有过强适应性的子模型不会提升集成模型的效果,反而会限制其作为整体对概念漂移的响应能力。并且在这个观点的基础上,我们发现与提升全部子模型相比,只提升部分子模型的适应性能够有效提升算法的性能。在当前采用能增量更新的子模型成为基于数据块集成方法的一大趋势的研究背景下,我们的这项研究说明了子模型适应性的提升需要有节制,且部分提升的效果会更好。另外,我们在6个合成数据集和2个真实数据集上对这两个观点进行了验证,实验结果很好地证明了我们的观点。