论文部分内容阅读
数据流是信息技术高速发展的产物,与传统数据相比,流数据中存在高维、噪音数据、概念漂移、标签稀少以及数据类别不平衡等问题,且要求较高的时空性能和精度,已有的方法与模型难以克服这些困难,因此无法对数据流进行有效处理。随着越来越多的应用领域出现了大量数据流,对数据流挖掘算法的研究逐渐成为了数据挖掘领域的热点内容之一。本文通过了解数据流的特性、分析数据流分类的研究背景以及相关技术,将研究重点放在对数据流分类中概念漂移问题的处理上。主要创新工作如下:首先,结合了概念漂移检测和集成分类的思想提出了一种基于概念漂移检测的在线更新集成模型,称为 DDOE(Drift-Detection Based Online Ensemble)。此算法使用Hoeffding Adaptive Tree作为基分类器,它会在每个节点上训练一棵替代子树,在发生概念漂移时可以用替代子树替换旧的分支。当新数据块到达时,算法首先利用扩展的DDM算法对数据块进行漂移检测,若在某样本处检测到概念漂移,则将数据块从此处断开。首先利用概念漂移发生之前的样本训练最新模型,并替换集成框架中性能最差的基分类器,然后利用漂移发生之后的样本对各个基分类器进行调整,使得原来的模型更加适应新的概念。此外,漂移之后的样本将被添加到下一个数据块中进行训练。若没有检测到概念漂移,则只是利用最新数据块更新已有基分类器的权重,不构建新的模型,这样可以有效减少时间消耗。最后,为了适应缓慢概念漂移,在未检测到概念漂移的情况下利用最新数据块训练各基分类器,对其进行在线更新。其次,在应对概念漂移的问题时,基于“被当前模型错误分类的实例可能隐含了新概念的变化趋势”这一假设,提出一种基于实例加权的在线更新模型EWOE(Examples-Weighting Based Online Ensemble)。此算法考虑到在集成框架中利用最新数据块更新基分类器时,错误分类的实例可能来源于新的概念,而正确分类的实例则属于旧概念,因此应当区别对待。基于此,本文引入了实例加权机制,给错误分类的实例赋予较大的权值,增加误分类实例在更新基分类器时的影响,从而使得算法能更快速地发现和适应新的概念。最后,为了验证本文提出方法的有效性,分别在人工数据集和真实数据集上将算法与其他方法进行了对比实验。实验表明在噪声含量较低的情况下,两种方法均能达到较高的分类准确率,并且与其他算法相比具有一定优势。