论文部分内容阅读
近年来,互联网技术高速发展,流量数据呈现出爆炸式的增长,这给网络运营商进行网络管理与调控带来了极大的挑战。网络流量分类是网络管理的关键技术,进行流量分类的工作将有助于加强我们对网络数据特点的了解,及时发现和应对网络中的异常数据,优化网络设备的部署,从而实现更加科学的网络规划。
目前,大量的机器学习算法被应用于流量分类中,根据特征选择方式的不同可将其分为浅层机器学习技术和深度学习技术。浅层机器学习技术根据统计信息进行人工特征选择进而实现流量分类,深度学习技术可以实现对数据特征的自主学习。流量分类技术愈加成熟,分类的准确性有所提高,但浅层机器学习往往受人工选择特征方法的限制,耗时且会导致分类误差的累积,而且这种方法受网络环境和数据格式的影响也较大。深度学习则不必人工提取特征,这种分类方法不仅鲁棒性好而且可以节约大量的计算资源,近几年在网络流量分类中得到越来越多的运用。但现有的基于深度学习的网络流量分类模型普遍存在两大不足,一是现有的分类模型分类时间久、模型复现困难;二是因深度学习模型固有的特点,训练合适的模型所需数据集的数据量大且其错误分类结果往往难解释。本文针对这两个不足,改进了两种现有的深度学习模型,使其能够实现更理想的分类能力。
本文的主要工作及创新性点总结如下:
1.针对目前深度学习在网络流量分类问题中普遍存在测试时间久的问题,提出了一种自适应跨步全卷积神经网络,用跨步卷积层替换卷积层和池化层,并分别用自适应的全局最大池化层和自适应的跨步卷积层代替经典卷积神经网络中的全连接层,以减少卷积神经网络的权重值和连接数量,使最终得到的分类器可以兼顾准确率和时间效率。
2.针对现有的深度学习的方法往往需要大数据量的带标签数据集才可以进行较理想的分类及现有的网络流量的分类结果普遍存在分类错误的结果难解释的问题,提出了一种改进胶囊网络的网络流量分类方法。在胶囊网络中,用向量输出代替了卷积神经网络(CNN,Convolution Neural Network)的标量特征输出,用一致性路由代替最大池化完成特征的整合,并通过扰动胶囊里的数值来重构图像,使错误分类结果具有可解释性。
基于公开数据集和实际采集数据的一系列实验结果表明,与现有的基于深度学习方法相比,设计的基于全局自适应跨步卷积神经网络的流量分类方法具备更高的准确率和时间效率;提出的基于改进胶囊网络的流量分类方法在数据量较小的数据集中能够实现高精度的分类,其重构模块输出的灰度图也可使分类的结果更容易被解释。
目前,大量的机器学习算法被应用于流量分类中,根据特征选择方式的不同可将其分为浅层机器学习技术和深度学习技术。浅层机器学习技术根据统计信息进行人工特征选择进而实现流量分类,深度学习技术可以实现对数据特征的自主学习。流量分类技术愈加成熟,分类的准确性有所提高,但浅层机器学习往往受人工选择特征方法的限制,耗时且会导致分类误差的累积,而且这种方法受网络环境和数据格式的影响也较大。深度学习则不必人工提取特征,这种分类方法不仅鲁棒性好而且可以节约大量的计算资源,近几年在网络流量分类中得到越来越多的运用。但现有的基于深度学习的网络流量分类模型普遍存在两大不足,一是现有的分类模型分类时间久、模型复现困难;二是因深度学习模型固有的特点,训练合适的模型所需数据集的数据量大且其错误分类结果往往难解释。本文针对这两个不足,改进了两种现有的深度学习模型,使其能够实现更理想的分类能力。
本文的主要工作及创新性点总结如下:
1.针对目前深度学习在网络流量分类问题中普遍存在测试时间久的问题,提出了一种自适应跨步全卷积神经网络,用跨步卷积层替换卷积层和池化层,并分别用自适应的全局最大池化层和自适应的跨步卷积层代替经典卷积神经网络中的全连接层,以减少卷积神经网络的权重值和连接数量,使最终得到的分类器可以兼顾准确率和时间效率。
2.针对现有的深度学习的方法往往需要大数据量的带标签数据集才可以进行较理想的分类及现有的网络流量的分类结果普遍存在分类错误的结果难解释的问题,提出了一种改进胶囊网络的网络流量分类方法。在胶囊网络中,用向量输出代替了卷积神经网络(CNN,Convolution Neural Network)的标量特征输出,用一致性路由代替最大池化完成特征的整合,并通过扰动胶囊里的数值来重构图像,使错误分类结果具有可解释性。
基于公开数据集和实际采集数据的一系列实验结果表明,与现有的基于深度学习方法相比,设计的基于全局自适应跨步卷积神经网络的流量分类方法具备更高的准确率和时间效率;提出的基于改进胶囊网络的流量分类方法在数据量较小的数据集中能够实现高精度的分类,其重构模块输出的灰度图也可使分类的结果更容易被解释。