基于概念漂移检测的在线集成分类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:ponsan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流是信息技术高速发展的产物,与传统数据相比,流数据中存在高维、噪音数据、概念漂移、标签稀少以及数据类别不平衡等问题,且要求较高的时空性能和精度,已有的方法与模型难以克服这些困难,因此无法对数据流进行有效处理。随着越来越多的应用领域出现了大量数据流,对数据流挖掘算法的研究逐渐成为了数据挖掘领域的热点内容之一。本文通过了解数据流的特性、分析数据流分类的研究背景以及相关技术,将研究重点放在对数据流分类中概念漂移问题的处理上。主要创新工作如下:首先,结合了概念漂移检测和集成分类的思想提出了一种基于概念漂移检测的在线更新集成模型,称为 DDOE(Drift-Detection Based Online Ensemble)。此算法使用Hoeffding Adaptive Tree作为基分类器,它会在每个节点上训练一棵替代子树,在发生概念漂移时可以用替代子树替换旧的分支。当新数据块到达时,算法首先利用扩展的DDM算法对数据块进行漂移检测,若在某样本处检测到概念漂移,则将数据块从此处断开。首先利用概念漂移发生之前的样本训练最新模型,并替换集成框架中性能最差的基分类器,然后利用漂移发生之后的样本对各个基分类器进行调整,使得原来的模型更加适应新的概念。此外,漂移之后的样本将被添加到下一个数据块中进行训练。若没有检测到概念漂移,则只是利用最新数据块更新已有基分类器的权重,不构建新的模型,这样可以有效减少时间消耗。最后,为了适应缓慢概念漂移,在未检测到概念漂移的情况下利用最新数据块训练各基分类器,对其进行在线更新。其次,在应对概念漂移的问题时,基于“被当前模型错误分类的实例可能隐含了新概念的变化趋势”这一假设,提出一种基于实例加权的在线更新模型EWOE(Examples-Weighting Based Online Ensemble)。此算法考虑到在集成框架中利用最新数据块更新基分类器时,错误分类的实例可能来源于新的概念,而正确分类的实例则属于旧概念,因此应当区别对待。基于此,本文引入了实例加权机制,给错误分类的实例赋予较大的权值,增加误分类实例在更新基分类器时的影响,从而使得算法能更快速地发现和适应新的概念。最后,为了验证本文提出方法的有效性,分别在人工数据集和真实数据集上将算法与其他方法进行了对比实验。实验表明在噪声含量较低的情况下,两种方法均能达到较高的分类准确率,并且与其他算法相比具有一定优势。
其他文献
墨臣的绿色生态建筑设计缘起于多年以前。2008年,参加了万科在深圳举办的一次盛大的春茗活动。当时,王石董事长就风趣地说万科准备要戴“绿帽子”了,希望通过大规模的住宅工业化
曾对9SiCr钢搓丝板进行N15机械油与好富顿K油淬火冷却效果的对比,又进行过N15机械油中添加LKZT淬火油添加剂不同含量的淬火冷却效果的对比。两次试验对比的优胜者-好富顿K油和添加4%LKZT添加剂的N15机械油
本文通过制备一系列Ba/Al2O3催化剂,探讨进一步加入Pt、Fe对催化剂结构、NOx储存能力及耐硫中毒能力的影响。结果表明:Ba/Al2O3催化剂存在着两种不同的Ba物种,即与载体紧密接
结合武汉永清商务区A4—3地块地下车库施工的实际情况,从多个方面分析了地下车库外墙板、顶板裂缝集中发生的部位的原因,总结了因裂缝产生渗漏的修补方法,并提出了在施工中如何
贵金属纳米材料因其优异的表面等离子体共振(SPR)性能成为当今纳米科技最受关注的热点,在诸多领域都表现出诱人的应用前景。随着纳米技术的发展,人们在贵金属纳米材料的合成
<正> 何谓教学行为?人们对这个问题的看法与理解,素来见仁见智,各言其是。我们运用系统论原理来分析这一现象,可以看出,教学行为不是简单的教学形式、手段、方法和技能的构成
随着现代工业和产业升级的快速发展,高加工速度、高加工精度以及高可靠性等机床性能逐渐成为高端数控机床的发展趋势,机床结构的振动特性成为影响机床加工质量和加工效率的重
20 0 3年 9月 1 1— 2 3日 ,俄罗斯著名社会史学家和经济史学家、俄科学院彼得堡历史所Б .Н .米罗诺夫教授应邀来吉林大学东北亚研究院讲学。米氏围绕 1 8— 2 0世纪俄国社
鸡免疫抑制病对我国养禽业危害严重,免疫抑制病与其他病原如禽流感、新城疫、传染性支气管炎、大肠杆菌球虫等混合感染使我们的养殖户损失惨重.本文对免疫抑制病的危害、免疫