挖掘概念漂移的数据流

来源 :中国科学院研究生院(本部) 中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:liongliong430
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络技术和大规模存储设备的发展,诞生了一门新的数据密集型的应用领域:数据流。在数据流中,数据呈现大量、连续到来的特点,因此从数据流中挖掘潜在的知识变得更加困难。相对于传统的学习静态数据集的数据挖掘算法,数据流上的学习算法必须能够处理两个额外的挑战:(1)数据流中大量、连续到来的数据;(2)随着时间的变化,数据流中潜在的概念将发生变化(又称概念漂移)。在过去的十几年内,有很多的方法被提出来挖掘数据流上的关联规则,查询和聚类数据流,以及分类数据流。从分类数据流的角度出发,以往的学习算法又大致分为两类:增量学习和集成学习。尽管很多的经验结果证明了这些模型的有效性,但是这些方法仍然有很大的局限性,表现在:(1)这些模型大都假设数据流上的样本都是已经标签的,因此都是基于监督学习的基础来设计的;(2)这些模型笼统地把数据流中的概念漂移看成是样本的联合概率分布发生变化,而没有深入探讨概念漂移的起因和相应的解决办法;(3)这些模型都针对理想的数据流而设计,没有考虑到数据流可能因为外部环境的变化而包含大量噪声的情况。针对以上的不足,本文基于统计学习的理论,提出了一系列相应的解决方法,这包括:(1)考虑到数据流中有大量的样本,而标签所有的样本将会消耗很大的资源,因此我们提出了一个基于最大方差的集成学习框架。这个框架可以在标注很少一部分样本的情况下,仍然获得准确的预测模型;(2)在那些仅仅有少量标签和大量未标签样本的数据流中,我们把数据流中的训练样本分为四种不同的情况,然后提出了一个RK-Ts3VM的学习框架来建立准确的预测模型;(3)我们把数据流上的概念漂移分为两种不同的类型:由样本的分布变化而引起的概念漂移(LCD)和同时由潜在模式的变化引起的概念漂移(RCD),并分别提出了基于样本加权和分类器加权的集成学习框架进行解决;(4)在非理想环境中,对于那些包含噪声块的数据流,我们提出了一个混合集成(Aggregate Ensemble:AE)的学习框架来降低噪声数据块对预测模型的影响;(5)针对噪声大量、随机分布在数据流中的情况,我们提出了一个全局和局部过滤(Local and GlobalFilterling:LgF)的框架来清洗数据流以建立准确的模型;(6)本文最后给出了一个基于实际应用项目的数据流挖掘案例:基于多目标数学规划(MCMP)的VIP客户邮箱日志流挖掘。在多种人工仿真数据流和真实数据流上的实验结果表明了我们以上工作的正确性和有效性。
其他文献
心脏骤停是所有急症中最危重的临床综合症之一,而对于心脏骤停患者来说,简单而有效的救治方法就是对其施行心肺复苏术,即通过按压和通气,帮助患者产生相对有效的血液循环和呼吸,为
VoIP(Voice over Internet Protocol)是一种数字电话,是由技术创新产生的一种互联网应用方式,它的出现对互联网乃至传统的通信方式产生了深远的影响。随着VoIP的广泛应用,如何对
学位
构件化软件是软件复用领域的研究热点,被视为解决软件危机,提高软件生产率和质量的可行途径,是软件工业化生产的必由之路。面向构件的软件开发(component-oriented software Dev
随着网络的普及,僵尸网络(Botnet)已经成为现代社会最严重的安全威胁之一,如何有效地检测和防御僵尸网络已经成为当前各大安全研究机构重要且紧迫的研究课题。目前对于僵尸网络
利用质谱数据搜索蛋白质序列数据库是当前最常用的规模化蛋白质鉴定方法。近年来,蛋白质序列数据库的规模正在以指数级增长;质谱数据的生成速度不断加快;对非特异性酶切和多种类
数据驱动的角色动画是计算机图形学中的研究热点,其中,实例数据是通过运动捕获设备对特定的模特的表演动作记录得到的,是与模特的骨架结构密切相关的。当这些数据重用到不同骨架
随着信息的迅速膨胀,传统的直连式存储(Direct Attached Storage,DAS)模型已经无法跟上人们对存储的需求,其在动态性、易用性和管理性等方面存在明显的缺陷。国家高性能计算机工
快速傅里叶变换作为时域和频域转换的基本运算在数字信号处理中应用广泛,而该算法由于采用分级实现,并不适于采用定点数来进行计算,尤其在处理高样本数时。所以本文针对FFT算法
车辆监测是智能交通系统的重要组成部分,系统实时监测路口交通状态、动态检测交通事件、提取交通参数。目前车辆监测在各种环境下背景建模方法通用性差、难以适应天气变化和
随着信息技术的飞速发展,软件产品逐渐应用到社会生活中的各个领域。在软件应用不断扩展的同时,软件质量逐渐成为人们关注的焦点。市场的快速变化对软件开发提出了更高的要求,只