基于数据流的概念漂移检测及集成分类研究

来源 :四川师范大学 | 被引量 : 3次 | 上传用户:szxszxszy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据引领了信息时代的重要变革,影响了经济、科技和社会等各个层面,大数据的其中一种形式以海量实时数据流的方式呈现。这些海量的实时数据中隐藏着巨大的价值,如何更好的挖掘处理这些实时数据流已经成为了国内外数据挖掘领域的研究重点和热点。数据流具有有序性、实时性、高速性、动态性、潜在无限性等特点,对数据流的处理包含存储、处理、分析和应用等。概要结构是用于解决数据流潜在无限性问题的处理技术,但现有的概要结构算法存在着重构数据流与原数据流相对重构误差较大和参数难以调整的缺点。概念漂移检测技术用于解决数据流的动态性问题,数据流集成分类具有较高的分类准确率和概念漂移适应能力而被广泛地应用到数据流分类中。但概念漂移检测和集成分类处理通常基于数据流标签及时可用的假设,在实际应用中这一假设很难成立。针对这些问题,本文做了以下三方面的工作:(1)实现了基于sim Hash的数据流分层遗忘概要结构(SH-HAS)。该结构采用sim Hash算法获取概要信息,并动态调整SH-HAS结构,解决了重构数据集与原数据集误差较大的问题。实验证明,SH-HAS结构具有更小的相对重构误差。(2)改进FKNNModel概念漂移检测算法,提出了MFKNNModel概念漂移检测算法。MFKNNModel利用数据的空间分布的改变来检测数据流概念漂移,并利用Spark Streaming高效并行计算来提升算法的运行效率,解决了FKNNModel算法中的人工干预及计算效率问题。实验效果表明,在缺乏人工干预的情况下,MFKNNModel具有良好的概念漂移检测能力和较高的运行效率。(3)提出了基于概念漂移的数据流集成分类模型(Ensemble Classifier Based on Concept-Drifting Data Stream,ECCDDS)。采用水平集成的方式生成基分类器,通过加权投票的方法对基分类器的分类结果进行投票,生成集成分类器的分类结果;ECCDDS算法首先形成数据流的概要结构,然后引入概念漂移检测算法MFKNNModel,在发生概念漂移时更新集成分类模型,最后对数据进行分类。ECCDDS打破了集成分类器以数据流标签及时可用为假设的前提,解决了集成分类器以分类精度作为概念漂移检测和模型更新为依据所带来的后序到达的数据流类标签不能及时可用的问题。利用Spark Streaming流式计算框架解决了集成分类器在计算资源和计算效率方面的问题。在真实数据集和人工数据集上的实验验证了ECCDDS集成分类模型的有效性。
其他文献
基于稀缺标记样本的半监督学习作为传统半监督学习的一个重要领域,主要研究当样本集中标记样本与未标记样本数量存在严重不平衡性时,如何获得优秀的鲁棒分类器的问题。区别于一
丰富互联网应用(Rich Internet Applications)是一种新型Web技术,它能够为互联网的用户带来丰富的体验。RIA目前已经成为Web技术领域研究的热点,深深地影响了Web应用。RIA为
电力绝缘子泄漏电流是表征绝缘子运行状态的重要数据,能够科学地表征绝缘子绝缘水平。但为了分析其高频特性,采样数据量需要很大,其庞大的采集数据量给数据通信和存储造成了严重的负担。数据压缩方法能够有效减小数据量,降低传输带宽要求。根据现有数据压缩方法,结合泄漏电流数据特征,提出了利用EMD(empirical mode decomposition)对数据进行分解,并用分形理论对泄漏电流数据进行压缩和恢复
随着网络技术的不断发展,远程监控系统在隧道监控方面的应用也越来越显现出它的优势,远程监测与控制、故障诊断、决策支持等功能为隧道交通的安全运营提供了有力手段和切实保
随着网络技术的发展与进步,网络时代的人工之智能对许多领域的发展起到了重要的作用。而移动Agent作为分布式人工智能技术与网络技术发展的必然结果,成为当前人工智能研究的热
面向对象的状态转移给软件性能造成的影响历来是测试领域研究的重点。本文在论证UML状态图能够通过描述状态而发现软件性能问题的基础上,提出了一种基于UML状态图的性能测试
在线考试系统中对于主观编程题通常采用动态评阅方式:编译并执行预先设置的测试用例,根据运行结果与用例预期输出是否一致评阅程序。动态评阅方式在程序无法编译的情况下不能
随着我国高速公路事业迅速发展,公路景观漫游系统对公路规划、设计和评价起着非常重要的作用。然而,目前的公路景观漫游系统在场景实时动态交互性和场景管理方面存在不足,为
随着互联网的发展,大量信息出现在人们的视野中。信息爆炸使人们能更方便地接收多方面的信息。但与此同时,有价值信息的快速获取也变得更加困难。为了解决这种情况,人们通常
随着网络技术的高速发展,网络为信息的交流、资源的共享提供了快捷的途径,网络成为人们生活和工作中不可缺少的一部分。随着用户群体的高速增加,业务种类的复杂多样,导致网络