论文部分内容阅读
在网络中根据网络应用对流进行分类,对诸如趋势分析、流量计费、入侵检测等作业都是必要的,而基于机器学习技术对网络流量进行分类是当前网络流分类的主流技术。
本文首先提出了四象分析法,其根据对象与类变化之间的联系,将对象的属性分为变量、特征、空值与常量4种象属性,属性之间的转化过程分为生成跃迁、单独跃迁、关联跃迁3种跃迁,并用四象分析法对流属性进行深入分析,定义流长、流周期、流速等概念,概括流分类与反流分类技术的本质;接着根据四象分析法的思想,设计了一个流特征提取与流分类系统,在实现中采用了动态计算方法以节省内存资源,并为了保持在不同场合对流的方向的分配一致,根据端口号与IP值来分配流的方向。
本文的最后在1999 DARPA数据集上进行实验,确定超时时间参数、比较单向流与双向流、观察流特征的变化,并从样本大小、样本分布、特征集、准确率、建模时间、分类时间等全方位的角度比较了几种机器学习方案,最终选择使用C4.5决策树算法构建分类模型,并用之预测其未曾见过的数据集,准确率高于97%。