论文部分内容阅读
增量学习算法是实现如何在数据增长过程中以在线的方式进行快速模型更新的有效手段。与此同时,极限学习机的产生和发展又为快速建模和更新提供了新的思路。增量学习和极限学习机的研究在过去的几十年里取得了丰硕的成果,但在当前数据飞速发展的背景下离实际应用还有一段距离。现有的方法主要存在三方面的问题:其一,基于极限学习机的增量学习在应对数据增量的过程中需要事先确定网络结构,但数据持续增加的过程会导致合适网络结构的确定也成为一个问题;其二,基于极限学习机的增量学习算法针对的是数据变化过程带来的增量更新,但数据随着时间的增长可能会呈现出不平衡性的特点,甚至在增长过程中发生概念漂移的问题;其三,现有基于极限学习机的增量学习研究关注的是单纯的数据增加或减少带来的模型更新,但数据的变化情况在具体应用场景下更加复杂,通常呈现出多种数据增量混合在一起的情况,进而使相应的模型增量更新也更加复杂。针对这些问题,论文围绕基于极限学习机的增量学习算法,特别是在线学习算法展开研究。在归纳总结增量学习和极限学习机相关算法的基础之上,论文针对当前方法存在的局限性提出对应的解决思路和方案,并取得了如下研究成果:(1)提出了在线顺序增量极限学习机模型,在数据增量的过程中同步进行结构增量的模型更新。不同于单纯的基于数据增量的极限学习机算法,所提算法在每次模型随新生成数据进行更新后监控当前分类/回归误差变化。当误差变化过大时,算法在该过程中同时增加网络节点,并通过分块矩阵的广义逆矩阵“秩一修正”来优化求解过程。在分类/回归数据集上的实验结果表明所提算法相对于其他基于极限学习机的增量学习算法具有更好的分类/回归性能。(2)提出了加权领域迁移极限学习机及其对应的在线学习算法来应对数据持续到达过程中伴随的不平衡数据学习问题,并应用在气体传感器漂移补偿问题中。为了应对数据在增量过程中产生的概念漂移和数据不平衡问题,论文在领域自适应算法中引入加权学习来构建半监督学习方式下的分类模型。在此基础之上,论文针对未标记数据的增量推导了对应的在线学习算法。在气体传感器数据上的实验结果表明加权领域迁移极限学习机能够以更少的标记样本获得更高的分类正确率,同时,其在线学习版本在保持这种特点的同时能使模型进行在线更新。(3)提出了两种在线领域自适应极限学习机模型应对数据动态变化时半监督学习模型的在线更新,并应用在气体传感器漂移补偿问题中。在半监督学习方式下,标记和未标记数据的变化包括各自的增减以及数据由未标记变为标记的过程。针对这一系列变化带来的模型在线更新问题,论文基于两类不同的半监督学习模型假设分别提出了基于源领域和基于目标领域的在线领域自适应极限学习机算法。在气体传感器数据上的实验结果表明所提算法都能以在线学习的方式进行模型更新,其中基于源领域的在线学习模型在标签较少时分类正确率更高,而基于目标领域的在线学习模型能随着标记样本的增加获得更好的分类性能。