基于集成学习的概念漂移数据流分类研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户：ggb1977

【摘要】

：

伴随着科技的发展和社会的进步,尤其是信息技术产业的大规模发展,各种形式的数据正在大量产生。而数据流作为一种新型的数据类型,与传统的数据集相比,数据流中存在高维、概念

【作者】

：

王泓毅

【出处】

：

南京信息工程大学

【发表日期】

：

2020年01期

【关键词】

：

数据流分类概念漂移集成学习奖励机制多类型基分类器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着科技的发展和社会的进步,尤其是信息技术产业的大规模发展,各种形式的数据正在大量产生。而数据流作为一种新型的数据类型,与传统的数据集相比,数据流中存在高维、概念漂移、标签较少、速度较快、含有噪音以及数据类别不平衡等特性,且处理时对于时间和空间的要求较高。已有的数据集分类的算法模型已无法满足数据流处理时的这些特性。所以面向数据流的挖掘分类算法逐渐成为了数据挖掘研究领域中的研究热点。本文将着重关注基于集成学习的概念漂移数据流分类研究,在深入了解数据流的研究背景、特性以及相关的集成学习分类技术后,发现目前数据流分类中最主要问题就是数据流中的概念漂移。为应对概念漂移的问题,本文在已有数据流分类的算法上做出了相关的优化。主要的创新工作如下:首先,本文提出了一种基于奖励机制的集成学习模型,称为REWARD(RE)集成模型。该方法在WMA算法的基础上,通过借鉴来自强化学习的奖励机制来调整基分类器的权重。当集成分类器置于数据流时,数据流中被分类的数据实例可用于增量训练集成模型中的基分类器,同时根据基分类器的分类结果更新每个基分类器的权重,即使用从强化学习中借鉴的Bellman方程式来更新权重。而当集成模型中的某个基分类器的权重小于预设阈值时,该基分类器将被删除,之后从缓存区读取已分类的数据流实例中构建新的基分类器,该方法可有效应对数据流分类中可能存在的概念漂移问题,尤其是概念漂移中的缓慢和增量的漂移。其次,由于基于奖励机制的集成学习模型,面对突变漂移时性能较差,所以本文在Bagging集成学习思想的基础上,提出了一种基于多类型基分类器的集成学习方法。此方法将集成分类器中的n个基分类器一分为二,其中1/2的基分类器设定为稳定基分类器,而另外的1/2基分类器设定为动态基分类器。稳定基分类器在数据流中通过增量学习的方法进行更新,而动态基分类器在数据流中每过一段时间就会重置,重置时所使用的数据为上个时间段模型分类得出的结果。为了进一步的提高面对突变漂移时的分类准确率,本文在稳定基分类器中引入了弃权算法,即在基分类器分类的准确性小于阈值的情况下,暂时放弃该基分类器,从而提升整体的分类的准确性,等其通过增量学习恢复分类的准确性时再启用该基分类器。为了验证本文提出算法模型的可靠性和有效性,首先通过自身的对比实验确定实验中的参数值,然后分别在模拟数据集和真实数据集上,将本文提出的算法与其它同类型的数据流分类算法进行了对比实验。实验表明在数据流中有概念漂移的情况下,两种方法均能达到较高的分类准确率,并且各自有特有的优势。

其他文献

高压空气爆破煤层增透关键技术与装备研发

针对我国低透气性煤层难以增透的现状,研究了高压空气爆破致裂煤层的增透机理,研发了煤层高压空气爆破的增透装备,实现了远程爆破控制及其监控,成功进行了多次室外露天试爆,

期刊

瓦斯防治高压空气爆破低透气性煤层增透

中国城镇居民消费函数模型解析——基于误差修正模型的检验

文章回顾了西方国家有关消费函数的理论和模型,并对我国经济理论界有关消费函数的理论和模型作了综述,在误差修正模型的基础上建立了中国城镇居民消费函数模型,最后对提高我

期刊

消费函数城镇居民误差修正模型

门诊银屑病106例健康教育

<正>银屑病是一种常见的慢性、反复性、炎症性皮肤病,目前尚无彻底根治方法[1]。2006年1~12月,我们对106例门诊银屑病患者进行系统的健康教育,效果满意。现报告如下。1资料与

期刊

银屑病银屑病患者健康教育

交互式电子白板是提高幼儿园音乐活动效率的外在动力

交互式电子白板作为一种新兴的高科技电子教学系统，集黑板、计算机、投影仪等多种功能于一身，它的优势在于：全新的可视化功能，大大增加了活动的视觉效果，使教师将活动的重难点进行

期刊

幼儿园音乐活动交互式电子白板幼儿学习外在动力

基于MATLAB/GUI的发动机信号采集与参数求解平台开发及应用

介绍了一种基于MATLAB/GUI搭建的发动机信号采集与参数求解平台。该平台通过直接控制数字示波器采集喷油器驱动电流信号、曲轴信号、凸轮轴信号、轨压信号等或导入已经采集后

期刊

MATLAB/GUI发动机信号采集参数求解

“超级第三者”:日本对中美构建新型大国关系的认知

日本是中美新型大国关系的"超级第三者",中美在构建"新型大国关系"中要高度重视日本变量。日本对中美构建"新型大国关系"存在防范与顾忌心理,将之更多解释为中美军事新型大国

期刊

中美新型大国关系“超级第三者”中美日中日关系日本

关于巨灾期权定价方法的探讨

巨灾期权是巨灾风险管理发展到一定阶段,保险和金融结合的产物。巨灾期权作为巨灾市场的一种主要风险转移方式,得到了学术界和巨灾风险市场的青睐。文章针对巨灾期权定价问题

期刊

巨灾期权期权定价理论跳跃过程保险精算方法

煤粉仓防爆措施的研究

介绍了煤粉的特性及爆炸机理,着重分析了煤粉的挥发分、细度、浓度、介质的含氧量以及混合物温度等5方面因素对煤粉的爆炸影响;基于煤粉的爆炸机理并结合煤粉仓安全事故,提出

期刊

煤粉爆炸机理防爆措施日常维护技术保障

典型极端低温事件形成原因对比研究

在全球变暖的背景下,近些年来我国极端低温事件频繁发生,对国民经济持续、稳定、健康发展带来了不利影响,有必要对极端低温事件的形成原因进行深入研究。本文首先根据持续时

学位

极端低温事件阻塞高压组合性异常大气低频振荡瞬变波

金融产品创新管理解决方案

当前银行业面临着很多的挑战，且随着竞争日益加剧，银行需要不断地进行创新，以客户为中心，提供个性化的金融产品和服务，以保持自身的竞争力和差异化。当前，多数的银行系统急需提高产

期刊

产品创新管理主数据管理管理流程金融产品创新金融业信息模型业务规则引擎产品创新能力

基于集成学习的概念漂移数据流分类研究

其他学术论文