【摘 要】
:
随着信息技术的进步和应用的需求,处理源源不断的数据流的场景无处不在,如信用卡欺诈监测、网络流量监控和在线金融交易等场景,这些数据流中往往蕴含着巨大的信息量。传统的机器学习算法大多针对离线数据反复训练模型,而数据流具有高速到达、变化多样以及规模庞大等特点,这些特点对传统的机器学习方法提出了挑战。很多场景中的数据流不仅变化多样且类别样本数量差异很大,这种数据流同时兼具动态性和不平衡性,对分类模型的准确
论文部分内容阅读
随着信息技术的进步和应用的需求,处理源源不断的数据流的场景无处不在,如信用卡欺诈监测、网络流量监控和在线金融交易等场景,这些数据流中往往蕴含着巨大的信息量。传统的机器学习算法大多针对离线数据反复训练模型,而数据流具有高速到达、变化多样以及规模庞大等特点,这些特点对传统的机器学习方法提出了挑战。很多场景中的数据流不仅变化多样且类别样本数量差异很大,这种数据流同时兼具动态性和不平衡性,对分类模型的准确率的影响非常大。本文围绕具有概念漂移的不平衡数据流的分类问题展开研究。本文主要工作:(1)提出一种改进的基于自适应随机森林的数据流集成分类模型。在集成分类器上设置漂移警告探测器和漂移探测器,当漂移警告探测器发出警告时,根据集成器准确率确定需要训练的背景树数量,同步训练背景学习器。当漂移探测器探测到漂移发生时,用训练好的背景学习器替换准确率低的基础学习器。引入背景学习器数量确定机制和基础学习器替换选择机制,以便更高效快速的替换效率低下的基础学习器。实验证明,改进的分类模型在保证准确率和kappa值不降低的前提下,所需要的时间更短,消耗的内存空间更少。(2)针对二分类不平衡数据流问题提出一种在线过采样方法,使不平衡的数据流在进入分类模型之前调整到相对平衡。通过设置固定大小的少数类样本滑动窗口,当数据流中的样本依次到达时,收集其中的少数类样本存放在滑动窗口中,滑动窗口中的少数类样本也会随着时间的推移而更新。在集成器训练过程中,将滑动窗口中的少数类样本按一定策略插入实时训练过程中,以达到平衡多数类的目的。(3)将少数类滑动窗口在线过采样机制与改进的自适应随机森林的数据流集成分类算法结合,处理二分类不平衡且具有概念漂移的数据流问题。在三组不同数据流上的实验结果显示,这种加入滑动窗口过采样机制的分类模型在提高了分类kappa_t和kappa_m值的同时,所需要的运行时间更短,消耗的内存空间更少。
其他文献
石油蒸汽裂解制备乙烯和催化裂化(FCC)会副产大量的烯烃馏分,随着环保法规的日益严格,汽油中的烯烃含量受到严格控制,高烯烃含量严重限制了烯烃馏分直接与汽油混合作为运输燃料的应用。近年来,以低碳烯烃为原料,通过叠合反应制备清洁液体燃料受到了人们的关注。我国航空燃油的年消耗量逐年显著增加。而航空燃油可分为航空汽油和航空煤油,其碳数分布分别介于C4~C12和C9~C16之间。C6烯烃通过叠合反应可以成为
具备广泛性和创造性的视觉设计思维,在现代社会生活的各个方面扮演着不可或缺的特殊角色,尤其是对于重塑历史文化街区赖以生存的实体经济,提高人民群众知识文化水平,满足人民群众精神文化需求,有着至关重要的作用。历史文化街区中的元素提炼、品牌设计、视觉效果、现代审美等,与历史文化街区的活化策略密不可分。用唯物主义的观点看待城市发展,用视觉设计思维活化历史文化街区研究,将在历史文化街区保护与利用中起到极其重要
中国食管癌,在全球有着较高的致病率和死亡率,且普遍为食管鳞状细胞癌(ESCC)。症状开始并不易察觉,一但出现晚期可能性较高,干预性治疗效果差。因此若能建立有效预后模型,将有助于决策性治疗,提高患者的生存率。目前国内放射治疗是食管癌首选治疗方式,然而仅从患者影像中获取的数据信息多取决于医生的专业水平及经验,还有很多的数字化信息可供深度挖掘。为量化肿瘤,影像组学(Radiomics)诞生,它通过高通量
汽车交通事故中,人体颌骨与牙齿部位存在损伤的风险,从而导致受害者牙齿脱落、面部受损。研究颌骨与牙齿损伤的尸体实验与动物实验,实验成本较高,且不易进行损伤应力分析。有限元方法可以仿真汽车碰撞的过程,成为研究颌骨及牙齿损伤的有效的方法。牙齿损伤对个人生活带来较多的负面影响,需要对损伤部位及时进行牙齿修复,目前应用最为广泛的修复方法是牙齿种植。基于CT扫描技术,获取人体颌骨及牙齿的几何参数,构建出具有高
山东省作为我国传统的经济大省,长年的重工业生产导致当地环境存在不可忽视的污染问题。本论文主要研究了山东省17个城市PM2.5的区域来源与行业来源情况,通过对2017-2018年采
葡萄花器官小而密,人工杂交去雄耗时耗力,这是限制葡萄杂交育种效率的瓶颈因素。因此,本研究以早黑宝和火焰无核葡萄为试材,在花前喷施不同浓度的马来酰肼、秋水仙素及叠氮化
环氧树脂是一种热固性高分子材料,因其杰出的粘接性,良好的耐腐蚀性和优异的电气绝缘性等优良性能,现已成为各产业中广泛使用的材料。然而,环氧树脂属于易燃材料,在实际应用中很容易引起火灾,存在较大的局限性。为了减少火灾发生的几率,必须使用阻燃剂来提高环氧树脂的阻燃性。目前,人们从绿色、安全的角度考虑,为解决现有阻燃材料在燃烧过程中危害较大的问题,急需开发新的环境友好型阻燃剂。本文首先以对苯二胺、邻羟基苯
ABS树脂是由丙烯腈(Acrylonitrile)、丁二烯(Butadiene)和苯乙烯(Styrene)三种单体共聚形成的热塑性塑料,具有优良的热稳定性、力学性能和化学稳定性。金属化过程可以使ABS树脂兼具金属的外观和特性,如导电性、耐磨性和电磁屏蔽性。金属化后ABS树脂可应用在电子电器、汽车、通讯器材、日用品等领域。由于ABS树脂本身不导电,表面光滑平整,粗糙度低且表现出明显的憎水性,缺少活性
目的:比较颈动脉内膜剥脱术和颈动脉血管支架置入术应用于颈动脉狭窄的安全性和有效性,总结围术期并发症发生情况,提出相应的预防措施,为颈动脉狭窄的手术治疗提供可靠证据。方法:收集2018年9月—2019年4月天津环湖医院收治并拟行CEA或CAS手术的82例颈动脉狭窄患者的病例资料,包括高血压病史、糖尿病史、冠心病史、脑卒中史、吸烟史、手术情况、住院信息等,进行回顾性分析。按照手术方式不同,分为CEA组
新媒体技术及移动通讯技术的迅速发展让人们进入到“微”的时代,从微博、微信到微店、微视频,进而发展到与学习相关的微课堂。以精简内容为特点的“微”文化走进了人们生活的方方面面。同时网络上也涌现各种“微资源”,让人们能够很好的利用工作闲隙、等人、还有坐车等零散的时间进行基于微资源的自主学习。另一方面,人们的知识更新周期随着社会的快速发展变得越来越短。为顺应时代需求,人们需要不断更新自身知识来提高自己的适