基于格式特征提取的离散序列报文分类识别关键技术研究

来源 :解放军信息工程大学 | 被引量 : 0次 | 上传用户:yu23344
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统网络流量识别技术主要针对完整会话流,通过提取流统计特征,实现以会话为单位的协议分类识别。但是在实际网络环境中由于受到接收条件的限制,接收到的数据往往是离散报文序列,甚至是包含重复残损的报文数据片段。与完整会话流相比,离散序列报文存在两个显著特点:先验信息匮乏;特征提取困难。先验信息匮乏是指,离散序列报文本身缺乏会话流信息,导致会话中的流统计特征和构成会话报文间的类别约束关系失去作用而无法有效使用;特征提取困难是指,离散序列报文由于自身的无序排列、部分报文缺失及重复,使得数据集不理想,造成特征提取的范围更加受限。同时识别的颗粒度提高到以报文为单位,使得问题的解决更加困难。因此需要研究面向离散序列报文的格式特征提取及分类识别方法。本文针对实际通信环境中获得的离散序列报文,通过格式特征提取,实现以报文为颗粒度的分类识别。论文的主要工作及创新点包括:1.针对含有固定域的离散序列报文,提出一种基于字节支持度的固定域格式特征提取及分类识别(DSFSC)算法。通过改进DBSCAN聚类算法的半径搜索策略,解决了搜索半径设定需要人工经验的弊端;提出了基于字节位置拼接的频繁模式挖掘算法,进行固定域协议关键字提取,提高了算法效率;提出特征筛选规则并进行固定域格式特征选择,最终实现了以报文为颗粒度的网络协议分类识别。实验结果表明,DSFSC算法不依赖完整会话流,对六种协议的报文准确率平均可达95%以上。以会话流为识别颗粒度与AdapSig算法的比较中,准确率平均可达90%且不低于AdapSig算法。2.针对包含可变域的离散序列报文,提出一种基于字节统计量的可变域格式特征提取及分类识别(VFSC)算法。利用DSFSC算法中改进的DBSCAN算法,进行报文聚类;在Prefixspan算法的基础上,引入字节变化率和字节离散度参数,挖掘出取值范围自适应确定的可变域协议关键字,解决了人为划分的弊端;同时针对不同类型的特征冗余情形,提出了不同的启发式选择规则,进行可变域格式特征筛选;依据提取的可变域格式特征,实现了以报文为颗粒度的网络协议分类识别。实验结果表明,VFSC算法对七种协议的报文准确率平均能达到95%以上,优于经典的Apriori算法,同时在ACARS协议的识别中,还验证了该算法具有发现训练集中未出现类型报文的能力。3.针对具有轮廓结构化特征的离散序列报文,提出一种基于字符空间统计分布的协议轮廓格式特征提取及分类识别(OSC)算法。通过建立的二值图像转换模型,将离散序列报文进行转换,获取报文的轮廓特征;改进了图像聚类算法的搜索范围策略,使其搜索半径自适应确定,解决了人为设定的弊端;同时提出基于距离加权的判决算法,提取出轮廓格式特征,采用余弦相似度指标对网络协议进行分类识别。实验结果表明,OSC算法对协议轮廓格式特征提取的准确率平均达到了80%,对五种报文类型的召回率平均达到了80%以上,同时验证了算法具有一定的抗噪能力。
其他文献
随着科技的不断发展,计算机视觉成为时代新兴的研究方向。而图像显著性检测,作为近年来计算机视觉中的一个热点课题也广受关注,越来越多的国内外学者投入到对这个课题的研讨
根据一副图像分析周围场景是计算机视觉领域中的一个重要挑战,为了实现这一目标,学习图像的视觉显著性信息是最基本的一步。因此,近年来图像显著性检测逐渐成为了计算机视觉
随着科技的发展和进步,人类每时每刻都会接受来自各个方面的图像信息,如何快速有效处理这些数字图像成为人类面对的一个难题。显著性检测将图像中人眼感兴趣的目标区域利用计
目的:观察大柴胡汤治疗老年便秘(少阳阳明合病)的临床疗效,并探讨其作用机理。方法:总结导师临床经验,结合古今名家及汉方医家运用大柴胡汤经验,设计临床研究方案。观察老年便秘患者64例,采用随机、对照的临床试验方法,分为两组。对照组给予六味能消胶囊口服以及基础治疗,治疗组给予大柴胡汤口服以及基础治疗,疗程均为7天,并于治疗7天后进行疗效评估。结果:1.一个疗程后,治疗组的总有效率为91%,对照组的总有
近年来,随着等离子体科学研究地不断深入,使得等离子体技术被广泛应用于能源、材料、环境、宇宙等诸多专业领域。特别是在材料表面改性研究方面,利用等离子体技术对聚合物表
随着互联网技术以及摄像设备的急速发展,视频存储量在急剧增长。面对如雨后春笋般涌现的类型多样化以及内容丰富的视频资源,快速地了解视频信息成为一项迫切需求。人为手动拖
在计算机视觉任务中,深度学习技术使机器在识别精度上已经超过了人类,越来越多的学者将研究的注意力集中于性能瓶颈。经典模型普遍计算代价昂贵的核心原因是,其模型本质都是
无线电波在传播过程中会受到各种障碍物的吸收、遮挡、反射、绕射和散射等,导致接收信号产生衰落。无线信道衰落分为大尺度衰落和小尺度衰落,传输路径上障碍物引起的阴影衰落
仿生机器人的传统驱动方式有电机、液压等,其缺点也显而易见,比如能量转换效率较低、噪声大、体积大,所以驱动方式的柔性化是研究趋势。本文应用了一种柔性驱动材料DEAP,为仿
未来的战争将是信息化战争为主导,因此人防的建设的重点也自然而然的集中在防电磁干扰,提高人防警报信号准确性上。由于现有的警报通信系统是基于窄带的通信技术,干扰对窄带