面向概念漂移和不均衡数据流的分类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:gklyliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着大数据和云计算的迅速发展,在互联网等方面源源不断地产生大量的数据流。学者们为了获取并分析这些领域的数据流中隐含的大量的有用信息,为此对数据流挖掘领域展开了深入研究。然而,静态数据与数据流并不完全相同,数据流的特点是快速性、连续性、多变性、无限性等。特点的不同决定了数据流挖掘算法并不能完全沿用传统的数据挖掘算法。不仅如此,数据流中会产生概念漂移现象即数据的分布会随着时间的变化而随之变化,这一现象无形中对数据流挖掘也造成了巨大的难度。与静态数据相同的是,数据流中也存在类不均衡现象,这些都是流挖掘过程中不得不面对和迫切需要解决的重点和难点问题。因此,本文主要围绕以上问题,对数据流中的概念漂移现象和类不均衡问题展开深入研究,其主要的工作内容包括:针对数据流中概念漂移问题,本章介绍了基于数据分布的概念漂移检测算法,主要分为概念漂移检测模块和概念重现检测模块。该算法不仅能处理数据流中的概念漂移现象,还可以检测到重现概念问题。首先利用概念漂移检测算法检测出数据流中的概念漂移问题,然后在概念重现模块中解决重现漂移的问题。最后在数据流机器学习实验分析平台MOA上对该算法进行大量验证与分析。结果表明该算法具有低误报、低漏报和低检测时延,不仅有效地提高了分类的性能指标,还发现了概念漂移现象中的重现概念问题。针对存在类不均衡问题的数据流中概念漂移的分类问题,本章提出一种基于集成学习的不均衡数据流分类算法。该算法首先处理数据流中类不均衡问题,先采用上采样技术,再采用下采样技术,增加正样本,减少负样本,减少过拟合,均衡数据流。其次采用集成方式周期更新分类器权值应对概念漂移。动态更新分类器权值时,不仅考虑了分类器对当前数据块的分类正确率,还引入了分类器对当前数据块的错误分类的代价。在分类器的淘汰策略中,计算分类器在集成分类器中的贡献值,根据贡献值替换分类器。最后在数据流机器学习实验分析平台MOA上对本文算法进行大量验证与分析,结果表明该算法具有较高的分类正确率。
其他文献
现阶段我国图书馆资源的建设和应用水平相对较低,无论是公共图书馆还是校园图书馆都存在各种各样的问题,为了解决目前我国图书馆资源建设及其利用方面出现各种不足,图书馆联
采用铸铁屑内电解法处理餐饮废水,考察了反应条件对除油率的影响。结果表明,不需调节原水的pH值,选用10~16目的铸铁屑,在其投量为100g/L、反应时间为45min、温度约为30℃的条件下,铸
文章以吉隆坡新捷运工程地下北段A标工程为例,基于Horn的三维楔形体破坏理论,采用极限平衡分析法,推导出了在土压及全水头压力作用下满舱土、半舱土、无土三种状态下土舱压力
党的十八大、十九大以来,学者们在新时代语境下对中华传统文化创造性转化的研究呈现快速发展的态势。当前,学术界在现实逻辑、多重挑战、多维路径等方面对传统文化创造性转化
随着医院智能化水平的不断发展,越来越多的智能化系统运用到了医院的各个环节中。详细分析了医院智能化系统的特点,提出了医院智能化系统的建设目标,设计了基于服务类型的医院智
<正>长三角科技资源共享服务平台日前正式开通上线,只要登录其官网就可以足不出户纵览长三角科技资源信息并预约使用。仪器预约、研发托管、政策资讯、科技社群、培训活动等
互联网作为信息获取的重要渠道,包含内容广,传播速度快,在网路信息安全方面存在一个日益的问题一些用户为了避免网络过滤系统对信息文本内容的搜索和检查,故意将一些不良、非
以4~10年生‘绿岭’核桃树为试材,研究了核桃的开花物候期,不同树龄不同结果母枝雌雄花芽构成比例以及不同时期喷施不同浓度石硫合剂对雌花座果的影响。结果表明:‘绿岭’核桃
数据流分类问题是数据挖掘领域中重要的研究方向之一,其主要特征为数据序列以流的形式不断地产生,如传感器网络异常检测、信用卡欺诈行为监测、天气预报和电价预测等实际问题
高校实行学分制收费,就是规定每学分的学费标准,根据学生实际选修学分数量的多少计算学费。学分制与导师制、班建制合称为世界三大教育收费模式。文章从学分制的起源说起,分