论文部分内容阅读
增量学习又称持续学习或终生学习,是指学习模型能不断学习新数据,处理新任务,同时学习模型还被要求不能忘记之前学习过的知识。在未来的学习系统中,增量学习有着相当重要的地位。因为它有效地利用了资源,消除了在新数据到达时需要从头开始重新训练的麻烦。另外它通过限制存储所需的数据量减少了内存的使用。这样的学习模式也更像人类对新事物的学习方式。增量学习面对的主要挑战是灾难性遗忘,即学习模型更关注新数据,而忘记了之前学习过的数据。本文解决的问题是增量学习中的一个子类叫类增量学习,即每次学习模型学习的新数据都来自新类别,学习模型在学习新类别的同时,也要尽量保留对旧类别的记忆。针对该问题,许多学者提出了不同的方法。他们主要分为三类。第一类基于知识蒸馏的方法,他们通过知识蒸馏把旧类知识迁移到学习模型中。第二类是基于参数正则化的方法,他们主要通过正则化方法防止神经网络的权重偏移太多来达到保留旧类知识的效果。第三类是基于生成模型的方法,他们通过生成模型生成旧类别的伪样本或伪特征达到防止遗忘旧类的目的。上面介绍的三类方法通过不同的手段来解决增量学习的灾难性遗忘问题,但这些方法都没考虑到学习模型的泛化能力和稳定性对学习模型的性能的影响。本文提出了一个基于随机敏感度的增量学习(SSIL)模型来解决灾难性遗忘问题。SSIL利用常用的交叉熵损失来学习新知识,利用局部泛化误差模型得到的随机敏感度损失来增强学习模型的稳定性和泛化能力。此外,SSIL采用了两种蒸馏损失来保留来自旧类的知识,一个是通过训练样本计算得到的知识蒸馏损失,另一个是通过计算随机敏感度时生成的样本计算得到的知识蒸馏损失。通过这种方式,SSIL为新旧类保持健壮性和高性能。在CIFAR-100和Image Net ILSVRC2012两个大型图像分类数据集上的实验结果表明,本文提出的方法优于其他先进的算法。具体来说,SSIL在两个数据集上的精度分别比流行的方法i Ca RL分别提高了9.98%和8.98%。