论文部分内容阅读
网络协议逆向工程是以不掌握协议先验规格为前提,面向私有协议的网络数据或程序运行,逆向解析其协议字段格式,字段语义和协议状态机的自动化技术。网络协议逆向技术对于管理网络通信行为,保障网络健康运行,提高网络服务质量,营造网络安全环境等具有重要意义。在协议逆向工程技术问题中,字段格式提取研究是重要技术目标之一。然而,当前协议逆向工程技术缺乏二进制协议对象的字段解析,使得二进制协议逆向的字段格式提取问题成为当前新兴挑战。相比传统协议逆向研究而言,针对二进制协议字段对象,其字段边界定义更加灵活,导致传统方法解析精度不够,即边界目标特征复杂;其字段填充不含字符编码信息,导致协议序列透明,即先验信息更加匮乏。因此,造成当前协议逆向工程技术研究方法一般不适用于二进制协议逆向的字段格式解析问题。本文基于网络轨迹的协议逆向技术,重点研究二进制协议逆向的字段格式提取问题,建立了面向二进制协议的字段格式提取理论模型;针对字段值域取值的多样性,研究了基于字段动态特征和字段静态特征的二进制协议字段边界提取方法;完成了原型系统的设计和开发,进行了算法性能测试和验证。论文主要工作及创新点包括:1.针对二进制协议字段对象特点,建立基于条件随机场的二进制协议逆向字段格式提取理论模型。建立二进制字段和文本字段的形式化表达,提出一种基于条件随机场的二进制协议逆向字段格式提取理论模型,针对模型参数确定问题,利用自回归滑动平均求和模型,分析字段边界特征模板对字段格式提取模型参数估计的影响;针对模型概率计算问题,建立前后向变量的迭代过程,计算字段格式特征的后验概率分布;针对模型预测标注问题,估计后验概率分布的最优目标,分析字段格式提取的最佳精确定界,总结字段格式解析模型具备的关键问题。2.针对二进制协议字段格式提取问题,以字段值域分布的动态变化为切入,提出一种基于字段边界动态特征的二进制协议字段格式提取技术方案。由于二进制协议字段呈现透明特性,从字段值域分布的动态特点角度剖析,提出一种基于改进多序列比对算法的二进制协议字段边界特征构造算法,利用空位特征描述二进制字段序列中的动态变化特性,完成与二进制字段边界的映射,继而设计了贝叶斯估计模型,拟合字段边界特征的后验概率分布,最终建立最大后验概率判决准则,实现了字段格式的最优估计。仿真表明,针对真实采集的二进制协议数据集进行评估,平均覆盖度不少于70%,平均准确度不少于75%,平均贴合度不少于85%。3.针对二进制协议字段格式提取问题,以字段值域分布的静态固定为切入,提出一种基于字段边界静态特征的二进制协议字段格式提取技术方案。由于二进制协议字段呈现透明特性,从字段值域分布的静态特点角度剖析,提出一种基于改进频繁项挖掘算法的二进制协议字段边界特征构造算法,利用频繁项边界特征描述二进制字段序列中的静态固定特性,通过匹配投票算法设计,完成与二进制字段边界的标记和映射,最终建立非线性判决准则,提出一种基于改进蚁群算法的多峰局部寻优判决模型,实现了字段格式的最优估计。仿真表明,针对真实采集的二进制协议数据集进行评估,平均覆盖度不少于70%,平均准确度不少于70%,平均贴合度不少于80%。4.针对二进制协议逆向字段格式提取的应用需求,设计并实现了一种二进制私有协议逆向的字段格式提取原型系统。基于前期理论研究和实验论证,分析了应用需求特点,设计了二进制协议逆向的原型系统实现方案。针对该原型系统,介绍了系统模块架构,展示了系统界面功能,实施了系统功能和性能测试,验证了该二进制协议逆向原型系统既胜任二进制协议字段的解析,又具备一定的文本协议字段解析能力,满足系统设计要求。