论文部分内容阅读
因特网(Internet)流量分类是实施网络管理、服务质量保障、网络计费以及网络安全等的重要基础。传统的流量分类方法难以适应因特网应用的快速发展,基于机器学习的流量分类方法具有良好的应用前景。但是,这类方法通常以获得高总体分类准确率为优化目标,尚未顾及因特网流量数据所具有的多类不平衡特性,致使分类性能往往偏向大类,而忽略小类。在因特网流量中,某些小类应用多涉及命令流、实时通信流等,其分类性能关乎通信的可靠性或用户体验,有的小类属于重量级应用,其分类性能关乎网络规划或带宽资源分配等。目前,因特网流量的类不平衡特性及分类方法缺乏系统研究。论文针对因特网流量数据集,就选定的特征空间,观察分析网络流样本的类分布特性,分析其特点,从数据重采样、特征选择和分类算法三个方面展开因特网流量分类方法的研究。论文的主要贡献如下:(1)因特网流量数据的类不平衡特性。论文从表象和内在两个方面剖析流量数据存在的类不平衡特性。比较各类别的网络流数目和字节数目,发现流量数据往往包括多个大类和多个小类,大类与小类之间的流数目差距显著,小类可能拥有较大比例的字节数,类内还可能存在大流与小流之间的显著不平衡。观察分析网络流样本在选定特征空间的分布特性,认识到同类流样本往往分布于多个子概念区域,某些子概念仅包含少量的流样本,类间流样本多存在重叠现象。研究类不平衡特性对流量分类性能的影响,发现多子概念特性对流量分类性能的影响比类间流数目不平衡或类间重叠更显著。(2)适合因特网流量多小类特性的代价敏感学习算法。当采用代价敏感学习算法处理流量数据的类不平衡问题,基于流比率的错分代价矩阵不适合因特网流量数据的困难小类(训练的流样本不致最少,但流量难以被正确分类的小类)。论文利用加权方式控制错分代价矩阵,即分析错分代价增长空间与类不平衡程度之间的关系,提出类不平衡程度评估指标和权重计算方法,以适度增加困难小类的错分代价而基本不损失大类的分类性能。(3)因特网流量数据的重采样方法。针对因特网流量数据可能存在的类间流数目不平衡、类间重叠、多子概念和小析取项等问题,提出分层式数据重采样方法PSC(partition, sampling and combining),首先将原始流量数据集划分为多个不相交且密集的子集,以减少类内子概念数;针对每个子集中的小类流样本特征值,以随机插值法扩充小类流样本,进而处理小析取项;并在每个子集上,移除大类与小类重叠区域的大类流样本,进而缓解类间重叠。PSC方法为子分类器训练建立类内散度、类间重叠程度和类不平衡程度均较低的训练子集。(4)因特网流量统计特征的选择算法。针对因特网流量数据可能存在类内多子概念、类间重叠和多小类,提出平衡式特征选择算法BFS (balanced feature selection)。为选择出使得单类流样本具有较低离散度的特征,提出局部相关性指标,用于评估单特征在单类流样本上的确定性程度。为选择出使得类间流样本具有较低重叠程度的特征,采用全局相关性指标评估特征对类别变量的确定性程度。基于每个特征的局部与全局相关性,为每个类别选择局部相关且全局区分性较强的特征,以保证选出的特征子集有利于区分多个小类。(5)因特网重型流分类方法。在因特网流量中,类内的大流与小流不平衡可能使分类器忽略大流的学习;类间流数目不平衡可能使分类器忽略拥有高字节数的小类的分类性能。两种情况均可能导致重型流分类困难,得到低字节分类性能。针对大流与小流不平衡,提出基于信息增益率的流尺度模块化方法(flow size modularization based oninformation gain ratio,FSMGR)。FSMGR以最小化大流集合的数据复杂度为目标搜索大流与小流的划分阈值,将原始流量数据集划分为大流和小流子集,并分别用于分类器训练,从而强化了大流的学习。针对类间流数目不平衡,改进(3)中提出的PSC重采样方法,在保留重型流的情况下缓解小类与大类之间的不平衡,并结合Boosting集成学习算法提高分类器的稳定性。