论文部分内容阅读
类增量学习技术在近年来逐渐成为机器学习领域的研究热点,其技术特点是在增量学习过程中随着数据规模的持续扩大,数据类别也随之增长。其中,面向高速动态数据流的类增量学习技术的研究,更是在诸如数据流异常检测、网络入侵检测、系统异常诊断和金融市场行为监控等现实场景存在较为迫切的应用需求。然而,流式数据模型具有数据分布动态变化、数据流速快、数据规模大且维度高等特点,给面向数据流的类增量学习技术提出了新的更大挑战:第一,在类增量学习过程中,实时到达的新类数据的规模较小,导致新类数据与已有类别数据之间出现分布不平衡的问题,严重影响数据流类增量学习的分类准确性;第二,由于数据流通常具有持续高速到达的特点,类增量学习需要对数据进行实时处理。过多访问历史数据,会严重影响面向数据流的类增量学习的实时性;第三,真实的应用数据通常呈现大规模及高维度的特性,与数据流的特点相结合,存在对大规模高维度数据实时处理困难、增量学习复杂的现象。针对上述挑战,本文对不平衡数据样例生成算法、层级嵌套算法进行了深入研究,以满足类增量学习精准和高效的现实需求,并在网络流异常检测领域对提出的基于代价敏感支持向量机的中心扩散式类增量学习算法进行验证,取得的主要研究成果如下:对不平衡数据的处理是面向数据流的类增量学习技术的基础。现有的类不平衡学习算法,大多集中于处理静态数据集的分类任务,并且利用数据间的距离来拓展潜在数据,容易造成无效信息的过拟合现象而导致不够泛化,从而影响类增量学习的准确性。为此,本文提出了一种基于中心扩散式的样例生成增强算法Cd IGAB(Central-diffused Instance Generation Algorithm embedded Boosting)。该算法以新类数据样例的中心为起点进行随机方向向量的扩散,以达到扩大该少数类(Minority Class)数据样例分布的目的,并有效降低类不平衡率。在此基础之上,我们将上述样例生成方案与自适应增强算法Ada Boosting.M2相结合,为迭代中被错误分类的数据样例分配不等的权重,从而减少最终集成结果中的方差和偏差。由于在每一轮迭代中引入了具有差异性的样例生成方案,为少数类提供了更为泛化的决策区域,显著增加了集成中分类器之间的多样性,有效保证类增量学习的准确性。实验结果表明,相较于经典的SMOTE、OPCIL和SDCIL算法,Cd IGAB能够对新类数据的分布进行更好的拟合,其对应的分类准确率(Overall Accuracy)平均提升10.34%,同时更关注少数类的Macro-F1指标也平均提升13.13%。在数据流场景下降低对历史数据的依赖程度,保证类增量学习过程的准确性与高效性,是面向数据流的类增量学习算法的关键。当前研究中类增量学习算法对历史数据的依赖较严重,往往需要多次访问历史数据或存储大量历史数据,面对大规模的流式数据时,处理的效率会大大降低。为此,本文提出一种基于单类支持向量机的层级嵌套算法ONHA(OCSVM based Nested Hierarchy Algorithm)。该算法借助OCSVM算法较为良好的泛化性,通过重复使用支持向量筛选核心关键样例,来消除冗余样例,进而更新全部模型,使分类模型具备良好的数据拟合能力。随着新类数据的不断到达,ONHA算法会构建一种层级嵌套结构式的分类模型。实验结果表明,与SDCIL、HSCIL和OPCIL等典型类增量学习算法相比,历史数据存储量可以平均降低70%,同时训练时间开销降低40%左右。针对高维度数据流环境中数据实时处理困难的问题,为进一步提高类增量学习训练效率,本文将样例生成增强算法Cd IGAB与层级嵌套算法ONHA做出相应的调整并加以结合,提出基于代价敏感支持向量机的中心扩散式数据流类增量学习算法Cd CIL(Central-diffused Class Incremental Learning based on C-SVM over Data Stream)。该算法通过采用随机维度扩散的方式,降低高维度数据所导致的负面效果;同时加入使用具备动态适应能力的代价敏感支持向量机,对数据流各个类别设置不同的代价敏感因子,增强层级嵌套模型的更新效果,防止高维度数据流所导致的模型过拟合问题,最终保证面向高维度数据流的类增量学习算法的准确性和高效性。实验结果表明,在网络流异常检测领域,Cd CIL算法能有效适应高维度数据流,对数据进行实时处理,保证面向高维度数据流的类增量学习的准确性和高效性,类增量学习训练时间开销平均减少33.2%,控制算法分类性能平均降低在6%以内。