论文部分内容阅读
当前,在许多应用场景中,数据往往以数据流的形式出现,由此带来了一个新的研究方向——数据流机器学习。与传统的机器学习相比,数据流机器学习由于数据流自身的特点(实时、快速、大量、易变)给传统的机器学习任务,特别是分类任务,带来了新的挑战。目前,数据流相关研究主要集中在监督环境下的数据流分类以及无监督环境下的数据流聚类,相较而言,半监督环境下的数据流分类研究工作非常少,至今还没有专门的综述文章。然而,在实际中,获取样本的标记既耗时又费力,数据流中数据量大以及实时、快速的特点导致几乎不可能完全地且及时地对样本进行正确标注。例如,在信用卡在线欺诈检测场景[10]中,当发生新的交易时,使用当前的分类器模型预测该交易的类型是正常还是欺诈。当客户收到银行账单后,会识别该交易类型的预测是否准确并向银行反馈,从而银行可以获得该交易的真实类型。然而,并非所有用户都会提供反馈,并且此过程具有时间上的延迟,所以,分类模型通常在半监督环境中被更新。因此,半监督环境下的有概念漂移数据流分类研究显得更加符合实际、更加有意义。半监督环境下的概念漂移数据流分类研究主要面临两个挑战:1)如何在半监督环境(随机标记少部分样本)下构建一个泛化能力好的分类模型并持续地更新分类模型;2)如何在半监督环境下,有效地检测概念漂移,以及在检测到概念漂移后如何有效地调整分类模型。本文主要研究内容如下:第一、对数据流分类进行了简要的概述,并对当前半监督环境下的概念漂移数据流分类研究工作进行了较为全面、详尽的梳理与归类。第二、针对SPASC算法在池更新过程中存在的问题—分类器池满以后,原有的更新策略会导致对概念漂移的适应能力较差,提出改进算法SSCLCR,通过“局部成分替换”策略对SPASC的池更新过程进行了改进。一系列实验结果表明该方法能够对分类器池进行更好的更新,从而提升了分类准确率。“局部成分替换”也是对由概念漂移导致的不同概念类重叠问题的一种可行的解决办法。第三、当前基于聚簇模型的概念漂移数据流分类算法在构建分类器时往往事先指定聚簇数量并且聚簇数量在数据流的处理过程中保持不变,这在数据流环境中明显不合理,并且聚簇数量对算法效果有很大影响,其设置无统一标准。此外,在半监督环境下显式地检测概念漂移比较困难且检测效果难以保证。针对上述问题,本文提出算法S2CD-TL,主要工作包括:i.基于?-?映射图提出用一种CUMSUM类型算法来估计聚簇的数量,并基于此来构建基于聚簇分类器;ii.提出一种基于最大多样性的分类器剔除策略来更新分类器池;iii.提出一种基于迁移视角的集成学习加权策略用于对数据分类。相比于基线模型,所提算法具有较高分类准确率,时间复杂度略高。第四、考虑到现有的基于分块的批量处理算法更适用于周期性概念漂移,然而在较复杂的概念漂移场景中准确率表现不佳。受到人类记忆存储模型的启发,我们提出了一种基于在线加离线的存储模型并结合流式KNN进行分类的算法OLFLSSL。该算法通过一个层次化索引结构以在线的方式来学习数据流,概念漂移处理机制每隔一段时间被触发以从叶子节点提取知识并清除该节点的样本。然后基于概念漂移检测和提取的知识来更新离线模块。实验结果显示,所提出的算法与基线模型相比较具有更高或至少相当准确度,对复杂的概念漂移场景有更好的适应能力。本文的创新点如下:1)算法SSCLCR利用了聚簇分类器的特点,提出分类器局部成份替换这一概念来更新分类器;2)算法S2CD-TL采用一种CUMSUM类型的无监督方法来估计聚簇数量,并基于聚簇分类器提出分类器剔除策略和加权集成方法,分别用于池的更新和分类;3)算法OLFLSSL设计了一种结合了在线加离线的存储模型来实时地从数据流中学习。