论文部分内容阅读
网络设备分类在网络管理和网络空间安全方面有着广泛应用,设备分类的前提要对流量数据进行正确的预处理。现有预处理方法大多利用编程语言开发出小型工具类软件,应用范围较窄不具有推广性,无法满足一些特定的处理需求且源码不公开。利用网络流统计特征来进行网络设备分类和安全管控的应用研究,往往受限于该领域数据集的不充足,一些优秀的数据集也并未完全公开数据的具体采集和处理过程,如网络入侵检测数据集KDD CUP 99等。因此,在实际工程应用中,迫切需要一种灵活高效的处理方法和手段,来构建出符合自身需求的流量统计特征数据集。本文所提出的基于关系型数据库的网络流数据预处理方法可以有效完成流量统计特征的提取,相比已有的技术手段具有提取快速﹑自动化程度高﹑通用性强的特点,使用该方法可以灵活构建出不同分类需求场景下的流量统计特征,极大提升了原始网络流数据的预处理效率。本文的主要工作如下:(1)提出了一种通用性的网络流量数据集构造方法,该方法基于关系型数据库的SQL脚本语言来实现,具有批量处理﹑编码灵活﹑特征自定义程度高的优点。将常用流量统计特征进行了抽象概括,利用SQL统计语言以模块化的对应方式映射出与统计特征相符合的代码模块,并进一步形成了特征提取库,对于网络流量包的统计特征预处理过程具有通用性的处理能力。(2)统计特征提取实验选择在公开的pcap数据集上进行,对于需求选定的统计特征集合进行提取算法的程序实现。实验结果表明,利用本文所提预处理方法完整准确的提取出了指定的流量统计特征,完成了从pcap二进制格式流量文件至机器学习模型所需的CSV格式统计特征文件的处理转化。(3)为验证本方法所提取出统计特征数据的正确性和有效性,将生成的CSV统计特征数据输入到多个经典的机器学习模型进行物联网设备的分类预测。实验结果表明,本文方法所生成的数据集对于训练效果的准确度不低于已有的同类研究文献,由于所对比的模型均是经典模型且多数采用默认超参数,说明在相同的模型结构下使用本文方法生成的训练数据集能使模型具有更好的分类效果。(4)基于本文所提出的网络流量统计特征提取方法设计并实现了一种物联网设备识别系统架构。客户端使用Wireshark作为流量数据采集服务,利用Mysql的存储过程实现原始流量数据的定期统计转储,结合Windows系统下的bat批处理命令实现了自动化的原始流量数据获取至待预测统计特征数据的生成。利用Postman工具模拟了http的客户端访问请求至预测结果返回的设备识别过程。