论文部分内容阅读
伴随着科技的发展和社会的进步,尤其是信息技术产业的大规模发展,各种形式的数据正在大量产生。而数据流作为一种新型的数据类型,与传统的数据集相比,数据流中存在高维、概念漂移、标签较少、速度较快、含有噪音以及数据类别不平衡等特性,且处理时对于时间和空间的要求较高。已有的数据集分类的算法模型已无法满足数据流处理时的这些特性。所以面向数据流的挖掘分类算法逐渐成为了数据挖掘研究领域中的研究热点。本文将着重关注基于集成学习的概念漂移数据流分类研究,在深入了解数据流的研究背景、特性以及相关的集成学习分类技术后,发现目前数据流分类中最主要问题就是数据流中的概念漂移。为应对概念漂移的问题,本文在已有数据流分类的算法上做出了相关的优化。主要的创新工作如下:首先,本文提出了一种基于奖励机制的集成学习模型,称为REWARD(RE)集成模型。该方法在WMA算法的基础上,通过借鉴来自强化学习的奖励机制来调整基分类器的权重。当集成分类器置于数据流时,数据流中被分类的数据实例可用于增量训练集成模型中的基分类器,同时根据基分类器的分类结果更新每个基分类器的权重,即使用从强化学习中借鉴的Bellman方程式来更新权重。而当集成模型中的某个基分类器的权重小于预设阈值时,该基分类器将被删除,之后从缓存区读取已分类的数据流实例中构建新的基分类器,该方法可有效应对数据流分类中可能存在的概念漂移问题,尤其是概念漂移中的缓慢和增量的漂移。其次,由于基于奖励机制的集成学习模型,面对突变漂移时性能较差,所以本文在Bagging集成学习思想的基础上,提出了一种基于多类型基分类器的集成学习方法。此方法将集成分类器中的n个基分类器一分为二,其中1/2的基分类器设定为稳定基分类器,而另外的1/2基分类器设定为动态基分类器。稳定基分类器在数据流中通过增量学习的方法进行更新,而动态基分类器在数据流中每过一段时间就会重置,重置时所使用的数据为上个时间段模型分类得出的结果。为了进一步的提高面对突变漂移时的分类准确率,本文在稳定基分类器中引入了弃权算法,即在基分类器分类的准确性小于阈值的情况下,暂时放弃该基分类器,从而提升整体的分类的准确性,等其通过增量学习恢复分类的准确性时再启用该基分类器。为了验证本文提出算法模型的可靠性和有效性,首先通过自身的对比实验确定实验中的参数值,然后分别在模拟数据集和真实数据集上,将本文提出的算法与其它同类型的数据流分类算法进行了对比实验。实验表明在数据流中有概念漂移的情况下,两种方法均能达到较高的分类准确率,并且各自有特有的优势。