论文部分内容阅读
随着移动网络的迅速发展及移动应用的繁荣,移动网络流量识别在网络管理与网络安全等领域的重要性越来越突出。不同于传统工作站流量,移动网络流量的特殊性给传统流量识别技术带来了极大的挑战,如需细粒度识别,流量加密,应用数量巨大等等。机器学习技术在众多领域中都表现出优秀的分类性能,对解决目前移动网络流量识别技术存在的问题具有重大潜力。本文基于机器学习方法对适用于真实网络环境的移动网络流量识别技术展开相关研究。主要工作如下:(1)为了能识别目标应用流量及检测大量未知应用流量,提出一种基于分类器融合的多层分类器架构识别移动应用流量。首先,为了避免受流量加密,隧道等技术的影响,提取的流量特征集仅包含流量的统计特征及少量原负载字节值。然后,训练基于决策树模型的多层分类器,在不同层实现细粒度的目标应用流量识别和未知应用流量检测。最后,收集一个具有代表性的,较大规模的移动应用流量数据集用于验证本方法的有效性。实验结果表明本文的方法具有高识别精度,能有效的检测未知应用流量。(2)提出两种模型调整算法用于优化基于FPGA的决策树加速实现,从而使得工作(1)提出的算法易于进行硬件加速。首先,给出一种决策树模型中的浮点数阈值整数化方法,消除模型中的浮点数。然后,提出一种决策树模型剪枝方法,根据硬件资源限制自适应调整模型,避免每次模型更新时重新编程硬件。(3)通过在服务层次分析应用流量的网络行为,总结不同服务下的流量的网络行为特征,从而对工作(1)中不能识别的大量未知应用流量进行初步的粗粒度分类。首先,K-Means方法用于识别具有相似行为的流量。然后使用流量分布图可视化流量的网络行为,并利用节点度数,连通域数及其他统计特征总结流量的行为特征用于识别未知流量。实验结果表明一些提供特定服务的流量可以通过这种方法有效的进行识别。本文针对移动流量识别技术面临的众多挑战,研究了基于多分类器融合的移动网络流量识别方法,对于将基于机器学习的移动流量识别方法部署于现实网络环境具有一定的指导意义和实用价值。