论文部分内容阅读
传统网络流量识别技术主要针对完整会话流,通过提取流统计特征,实现以会话为单位的协议分类识别。但是在实际网络环境中由于受到接收条件的限制,接收到的数据往往是离散报文序列,甚至是包含重复残损的报文数据片段。与完整会话流相比,离散序列报文存在两个显著特点:先验信息匮乏;特征提取困难。先验信息匮乏是指,离散序列报文本身缺乏会话流信息,导致会话中的流统计特征和构成会话报文间的类别约束关系失去作用而无法有效使用;特征提取困难是指,离散序列报文由于自身的无序排列、部分报文缺失及重复,使得数据集不理想,造成特征提取的范围更加受限。同时识别的颗粒度提高到以报文为单位,使得问题的解决更加困难。因此需要研究面向离散序列报文的格式特征提取及分类识别方法。本文针对实际通信环境中获得的离散序列报文,通过格式特征提取,实现以报文为颗粒度的分类识别。论文的主要工作及创新点包括:1.针对含有固定域的离散序列报文,提出一种基于字节支持度的固定域格式特征提取及分类识别(DSFSC)算法。通过改进DBSCAN聚类算法的半径搜索策略,解决了搜索半径设定需要人工经验的弊端;提出了基于字节位置拼接的频繁模式挖掘算法,进行固定域协议关键字提取,提高了算法效率;提出特征筛选规则并进行固定域格式特征选择,最终实现了以报文为颗粒度的网络协议分类识别。实验结果表明,DSFSC算法不依赖完整会话流,对六种协议的报文准确率平均可达95%以上。以会话流为识别颗粒度与AdapSig算法的比较中,准确率平均可达90%且不低于AdapSig算法。2.针对包含可变域的离散序列报文,提出一种基于字节统计量的可变域格式特征提取及分类识别(VFSC)算法。利用DSFSC算法中改进的DBSCAN算法,进行报文聚类;在Prefixspan算法的基础上,引入字节变化率和字节离散度参数,挖掘出取值范围自适应确定的可变域协议关键字,解决了人为划分的弊端;同时针对不同类型的特征冗余情形,提出了不同的启发式选择规则,进行可变域格式特征筛选;依据提取的可变域格式特征,实现了以报文为颗粒度的网络协议分类识别。实验结果表明,VFSC算法对七种协议的报文准确率平均能达到95%以上,优于经典的Apriori算法,同时在ACARS协议的识别中,还验证了该算法具有发现训练集中未出现类型报文的能力。3.针对具有轮廓结构化特征的离散序列报文,提出一种基于字符空间统计分布的协议轮廓格式特征提取及分类识别(OSC)算法。通过建立的二值图像转换模型,将离散序列报文进行转换,获取报文的轮廓特征;改进了图像聚类算法的搜索范围策略,使其搜索半径自适应确定,解决了人为设定的弊端;同时提出基于距离加权的判决算法,提取出轮廓格式特征,采用余弦相似度指标对网络协议进行分类识别。实验结果表明,OSC算法对协议轮廓格式特征提取的准确率平均达到了80%,对五种报文类型的召回率平均达到了80%以上,同时验证了算法具有一定的抗噪能力。