面向数据流的类增量学习技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:wytlxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类增量学习技术在近年来逐渐成为机器学习领域的研究热点,其技术特点是在增量学习过程中随着数据规模的持续扩大,数据类别也随之增长。其中,面向高速动态数据流的类增量学习技术的研究,更是在诸如数据流异常检测、网络入侵检测、系统异常诊断和金融市场行为监控等现实场景存在较为迫切的应用需求。然而,流式数据模型具有数据分布动态变化、数据流速快、数据规模大且维度高等特点,给面向数据流的类增量学习技术提出了新的更大挑战:第一,在类增量学习过程中,实时到达的新类数据的规模较小,导致新类数据与已有类别数据之间出现分布不平衡的问题,严重影响数据流类增量学习的分类准确性;第二,由于数据流通常具有持续高速到达的特点,类增量学习需要对数据进行实时处理。过多访问历史数据,会严重影响面向数据流的类增量学习的实时性;第三,真实的应用数据通常呈现大规模及高维度的特性,与数据流的特点相结合,存在对大规模高维度数据实时处理困难、增量学习复杂的现象。针对上述挑战,本文对不平衡数据样例生成算法、层级嵌套算法进行了深入研究,以满足类增量学习精准和高效的现实需求,并在网络流异常检测领域对提出的基于代价敏感支持向量机的中心扩散式类增量学习算法进行验证,取得的主要研究成果如下:对不平衡数据的处理是面向数据流的类增量学习技术的基础。现有的类不平衡学习算法,大多集中于处理静态数据集的分类任务,并且利用数据间的距离来拓展潜在数据,容易造成无效信息的过拟合现象而导致不够泛化,从而影响类增量学习的准确性。为此,本文提出了一种基于中心扩散式的样例生成增强算法Cd IGAB(Central-diffused Instance Generation Algorithm embedded Boosting)。该算法以新类数据样例的中心为起点进行随机方向向量的扩散,以达到扩大该少数类(Minority Class)数据样例分布的目的,并有效降低类不平衡率。在此基础之上,我们将上述样例生成方案与自适应增强算法Ada Boosting.M2相结合,为迭代中被错误分类的数据样例分配不等的权重,从而减少最终集成结果中的方差和偏差。由于在每一轮迭代中引入了具有差异性的样例生成方案,为少数类提供了更为泛化的决策区域,显著增加了集成中分类器之间的多样性,有效保证类增量学习的准确性。实验结果表明,相较于经典的SMOTE、OPCIL和SDCIL算法,Cd IGAB能够对新类数据的分布进行更好的拟合,其对应的分类准确率(Overall Accuracy)平均提升10.34%,同时更关注少数类的Macro-F1指标也平均提升13.13%。在数据流场景下降低对历史数据的依赖程度,保证类增量学习过程的准确性与高效性,是面向数据流的类增量学习算法的关键。当前研究中类增量学习算法对历史数据的依赖较严重,往往需要多次访问历史数据或存储大量历史数据,面对大规模的流式数据时,处理的效率会大大降低。为此,本文提出一种基于单类支持向量机的层级嵌套算法ONHA(OCSVM based Nested Hierarchy Algorithm)。该算法借助OCSVM算法较为良好的泛化性,通过重复使用支持向量筛选核心关键样例,来消除冗余样例,进而更新全部模型,使分类模型具备良好的数据拟合能力。随着新类数据的不断到达,ONHA算法会构建一种层级嵌套结构式的分类模型。实验结果表明,与SDCIL、HSCIL和OPCIL等典型类增量学习算法相比,历史数据存储量可以平均降低70%,同时训练时间开销降低40%左右。针对高维度数据流环境中数据实时处理困难的问题,为进一步提高类增量学习训练效率,本文将样例生成增强算法Cd IGAB与层级嵌套算法ONHA做出相应的调整并加以结合,提出基于代价敏感支持向量机的中心扩散式数据流类增量学习算法Cd CIL(Central-diffused Class Incremental Learning based on C-SVM over Data Stream)。该算法通过采用随机维度扩散的方式,降低高维度数据所导致的负面效果;同时加入使用具备动态适应能力的代价敏感支持向量机,对数据流各个类别设置不同的代价敏感因子,增强层级嵌套模型的更新效果,防止高维度数据流所导致的模型过拟合问题,最终保证面向高维度数据流的类增量学习算法的准确性和高效性。实验结果表明,在网络流异常检测领域,Cd CIL算法能有效适应高维度数据流,对数据进行实时处理,保证面向高维度数据流的类增量学习的准确性和高效性,类增量学习训练时间开销平均减少33.2%,控制算法分类性能平均降低在6%以内。
其他文献
近来几年,由于有监督的深度学习技术飞速迭代进步,很大程度地推动了人工智能应用的发展[1]。基于大规模有标注数据集[2]的出现,才有了有监督学习的深度学习的发展。但是由于手工标注数据集既昂贵又耗时[3]、数据集标注错误难以避免、标注时需要面向领域的专业知识、原始数据质量参差不齐,这些问题严重制约着高质量标注数据的产生。因此,面向实际场景的数据集标注,具有极强的现实意义和研究价值,是一个亟待解决的问题
随着5G技术逐渐成熟及其商业应用产品慢慢普及,原本发展了数年的边缘计算进一步成为了研究热点,将人工智能技术与边缘计算领域融合更是引起了研究者们的强烈兴趣。但是,内存消耗型和计算密集型的深度学习算法与资源匮乏型的边缘终端硬件形成巨大冲突。本文针对边缘计算与深度学习的融合需求,将只有8KB内存的微型开发板作为研究和移植目标平台,深入分析了模型压缩、模型拆解、自动编码和模型存储关键技术,并在此基础上提出
党的十九届六中全会通过的《中共中央关于党的百年奋斗重大成就和历史经验的决议》强调,确立习近平同志党中央的核心、全党的核心地位,确立习近平新时代中国特色社会主义思想的指导地位,反映了全党全军全国各族人民共同心愿,对新时代党和国家事业发展、对推进中华民族伟大复兴历史进程具有决定性意义。"两个确立"既是深刻总结党的百年奋斗、党的十八大以来伟大实践得出的重大历史结论,更是新时代党和国家事业发展、推进
期刊
海杂波下的弱小目标检测一直是雷达检测跟踪识别领域的重难点问题。该课题在军事、民用上均有重要应用,军事方面可以用来检测潜望镜、远距离水面舰艇、掠海飞行器等,民用上可用来监控海上偷渡、非法贸易、预防船只相撞。高海况下,海杂波的后向电磁散射特性较强,雷达回波中的目标信号容易被海面浪、涌造成的海尖峰掩盖,给检测带来困难。传统的雷达目标检测方法存在诸多缺陷,低信杂噪比下虚警较多、海杂波复杂多变,传统方法在拟
卫星测控通信模拟器是一种专门与地面测控通信系统在卫星发射前进行联试和对接的仿真设备,主要用于验证地面测控通信系统在接口、信息交换、测控程序的正确性和协调性。在历次卫星发射测控中,测控通信模拟器发挥了至关重要的作用。随着我国第三代航天测量船的投入使用并将参加各项测控任务,为确保测量船测控通信系统的功能正确,必须利用卫星测控通信模拟器进行联试检验,为新测量船研制新的卫星测控通信模拟器成为必然。在分析了
卫星遥感影像是一种高度结构化的数据资源。将以深度学习为代表的现代计算机视觉技术与遥感数据分析结合起来,是当前研究的热点。其成果可能会对人们理解环境方式产生巨大影响,在农业、城市规划、可持续发展、应急救援、自然灾害的早期探测和预防等方面都可以提供关键支撑。地表覆盖类型分类是上述应用的基础,其目的是将卫星图像中的每一个像素划分为一个特定的土地覆盖类别。论文在此基础上展开基于深度学习的遥感影像地表覆盖类
学位
学位
在网络运维管理工作中,为了有效保证网络系统稳定可靠运行,网络管理者需要密切监控KPI(Key Performance Indicator,关键性能指标)的变化情况,基于指标中呈现出的异常现象,及时的发现网络服务故障,以规避网络系统升级与技术变更所带来的风险。然而,随着互联网公司业务及服务规模,以及网络系统规模的不断增长,传统网络运维管理手段在复杂实际场景下KPI异常检测任务中面临诸多挑战与困难。基