论文部分内容阅读
近年来,网络信息安全与防护已经成为一个不容忽视的问题,保护网络信息安全也是国家信息化所要面临的主要问题。在某些特别的环境下,通过各种手段使用非常规的专用未知协议进行窃密的行为日益普遍,危害日趋严重:与此同时,从获取的流数据中对未知协议进行分析识别,应用通行的监测手段和协议分析与识别方法并不能很好的达到预期效果。流数据是一连串高速传送、无限长度(随时问增加)、顺序不可逆的数据序列。本文所讲述的流数据是数据链路层上的流数据(即二进制0、1代码)。因为数据链路层流数据即比特流并没有语义且单一,目前研究者多从应用层入手考虑,而对于数据链路层上的二进制流数据的协议识别则研究较少,所以对于二进制流数据的协议特征分析并没有很好的解决办法。随着网络协议的发展,协议识别呈现出新的特点,比如某些协议进行了加密、使用动态形式的端口、还有采用P2P方式。为了达到网络信息安全的目标,并能够及时对危险进行预警,当前急切的需要能够在如此复杂的网络环境下研究出一种能够对未知协议进行分析识别的、效率高的、准确率高的方法。在网络的现实复杂情况下,流数据协议特征分析成为一个新的研究领域。本文通过对已知协议和未知协议的分析与识别方法的研究,认为流数据的未知协议的特征也有其固定的特点和规律,当截获大量、快速、连续到达的数据序列时,就可以通过实施一定的技术手段和方法对其进行分析和识别,找到其中所蕴含的规律信息。从海量的流数据中分析和识别未知协议的方法就是要对数据进行挖掘,找寻其中所包含的特征序列,在没有经验和已知协议的特征序列对照的情况下,达到对频繁序列的快速提取。本课题的内容是:首先对数据链路层上传输的流数据(二进制)进行合理的帧切分,而后选择合适的标识和特征选择算法,其次验证所用算法在协议识别中的效果,最后筛选出能准确描述协议的指纹信息。针对以上步骤,本文基于聚类算法对数据帧进行聚类操作,并且设计了一个无监督的基于最小冗余最大相关的特征选择算法提取数据帧的特征。本课题的研究正式基于这样的依据,针对大量、快速、连续到达的数据序列的分析提出一种可行的、效率高的、误报率低的协议分析与识别方法,保障网络甄别未知协议的能力。