论文部分内容阅读
近年来,随着网络技术和大规模存储设备的发展,诞生了一门新的数据密集型的应用领域:数据流。在数据流中,数据呈现大量、连续到来的特点,因此从数据流中挖掘潜在的知识变得更加困难。相对于传统的学习静态数据集的数据挖掘算法,数据流上的学习算法必须能够处理两个额外的挑战:(1)数据流中大量、连续到来的数据;(2)随着时间的变化,数据流中潜在的概念将发生变化(又称概念漂移)。在过去的十几年内,有很多的方法被提出来挖掘数据流上的关联规则,查询和聚类数据流,以及分类数据流。从分类数据流的角度出发,以往的学习算法又大致分为两类:增量学习和集成学习。尽管很多的经验结果证明了这些模型的有效性,但是这些方法仍然有很大的局限性,表现在:(1)这些模型大都假设数据流上的样本都是已经标签的,因此都是基于监督学习的基础来设计的;(2)这些模型笼统地把数据流中的概念漂移看成是样本的联合概率分布发生变化,而没有深入探讨概念漂移的起因和相应的解决办法;(3)这些模型都针对理想的数据流而设计,没有考虑到数据流可能因为外部环境的变化而包含大量噪声的情况。针对以上的不足,本文基于统计学习的理论,提出了一系列相应的解决方法,这包括:(1)考虑到数据流中有大量的样本,而标签所有的样本将会消耗很大的资源,因此我们提出了一个基于最大方差的集成学习框架。这个框架可以在标注很少一部分样本的情况下,仍然获得准确的预测模型;(2)在那些仅仅有少量标签和大量未标签样本的数据流中,我们把数据流中的训练样本分为四种不同的情况,然后提出了一个RK-Ts3VM的学习框架来建立准确的预测模型;(3)我们把数据流上的概念漂移分为两种不同的类型:由样本的分布变化而引起的概念漂移(LCD)和同时由潜在模式的变化引起的概念漂移(RCD),并分别提出了基于样本加权和分类器加权的集成学习框架进行解决;(4)在非理想环境中,对于那些包含噪声块的数据流,我们提出了一个混合集成(Aggregate Ensemble:AE)的学习框架来降低噪声数据块对预测模型的影响;(5)针对噪声大量、随机分布在数据流中的情况,我们提出了一个全局和局部过滤(Local and GlobalFilterling:LgF)的框架来清洗数据流以建立准确的模型;(6)本文最后给出了一个基于实际应用项目的数据流挖掘案例:基于多目标数学规划(MCMP)的VIP客户邮箱日志流挖掘。在多种人工仿真数据流和真实数据流上的实验结果表明了我们以上工作的正确性和有效性。