【摘 要】
:
在如今高速发展的信息时代,由于数据流广泛的应用领域,例如健康监测,资金交易和交通管理,流数据的分类已经得到了广泛研究人员的重视。流数据与传统的静态环境下的数据不同,作为一种新的数据模型,流数据需要对数据分析的高速度和准确性提出更严格的要求。为了分析和处理流数据,我们需要能够快速记录实时数据流信息并及时确保准确的信息。然而,当前流数据的分类面临如下两个问题:(1)带标签的数据实例的数量有限,不能满足
论文部分内容阅读
在如今高速发展的信息时代,由于数据流广泛的应用领域,例如健康监测,资金交易和交通管理,流数据的分类已经得到了广泛研究人员的重视。流数据与传统的静态环境下的数据不同,作为一种新的数据模型,流数据需要对数据分析的高速度和准确性提出更严格的要求。为了分析和处理流数据,我们需要能够快速记录实时数据流信息并及时确保准确的信息。然而,当前流数据的分类面临如下两个问题:(1)带标签的数据实例的数量有限,不能满足当前有监督学习分类算法进行合理有效的概念漂移检测;(2)流数据数据量大且速度快,如何能够快速并准确的对流数据进行分类是目前较为难以解决的问题。本文针对以上两个问题进行了研究与分析,并对当前国内外对流数据概念漂移以及分类的研究进行了优缺点的总结,提出了一种基于主动学习的集成分类器算法。主动学习策略可以有效的对流数据概念漂移进行无监督的学习,大大减少了对带标签数据实例的数量的需求,同时,集成分类器能够有效的对单个分类器进行集成,通过不同分类器的分类表现进行权重的分配,使得最终输出的预测值更加的准确以提高流数据的分类准确率。最终,为提高流数据分类的分类速度,我们采用了当前处理流数据最流行的Storm分布式计算平台,我们将所提出的方法部署到该平台上,使得所提出的算法实现了并行化,流数据的分类的速度有明显的改善。最终我们将基于主动学习的集成分类器的并行化实现进行了实验测试,实验结果表示所提出的方法可以有效地避免流数据中带标签数据实例数量有限,分类准确率不高以及分类速率低下的缺点。
其他文献
独角兽本来是神话传说中的一种虚构出来的动物,如今,却被赋予了不同寻常的含义。在现代经济学的语境中,独角兽是投资行业,尤其是风险投资业的术语,它指的是那些估值超过十亿美元的
新时代共享经济发展势头日益迅猛,依托网络平台参与共享经济的“零工经济”让人们的生活日益便利。然而,外卖送餐员、共享单车维护员、滴滴司机等工作相对自由的就业群体,如何获
据《海南日报》报道,日前,海口召开“彰显城市特色、践行绿色理念”建筑设计改革创新试点工作座谈会,邀请了21名国内建筑设计专家组成建筑大师工作营,为海口城市建筑设计出谋划策
班主任是班集体的组织者和领导者,是学生学习和生活的指导者,是联系班级与科任教师的纽带,是沟通家校的桥梁,班主任的工作直接关系到一所学校教育教学质量的高低。班主任培训是提
自疫情防控阻击战打响以来,我区各行各业的普通人在各自岗位上的坚守令人感动,更让人感受到平凡中的伟大。无论是在与疫情短兵相接的战斗一线,还是在保障居民日常生活的大后方,正
数学是什么?数学是研究现实世界的数量关系和空间形式的科学。数学更是一种艺术,是人类思维的自由创造。当下许多学生从初中升入高中后,感到学习高中数学非常吃力、很不适应。笔
相关背景$$“语文素养”在本文中是指儿童比较稳定的、基本的、适应时代发展需要的听说读写能力,以及在语文方面表现出来的文学、文章等学识修养和文风、情趣、价值观等人格修
乳腺发育状况是决定乳产量的重要因素之一。适当的能量供应对乳腺发育至关重要,营养匮乏或营养过剩都将影响乳腺的正常发育。目前尚缺乏对乳腺发育、泌乳及退化各个时期能量
小学阶段是儿童口语能力发展的最佳年龄阶段。抓紧这一时期对小学生进行规范的、严格的口语交际训练,有助于他们学会运用口语,学会与人交际,对它们的一生将产生巨大而深远的影响
近年来,房地产行业占经济的比重越来越大,逐渐转变为国民经济中的支柱性、基础性、先导性产业。房地产公司的财务状况影响甚广,对中国的经济和社会的发展有着重要的作用。房地产是典型的资金密集型行业,对资金的要求巨大,具有政策性强、流动性差、周期长、地域性明显、风险高等特点。2018年以来政策调控逐渐收紧,商品房成交规模达到新的高度,但房产销售增长速度逐渐变缓。2018年后国家的房地产政策体系的逐步完善,政