论文部分内容阅读
随着移动设备的普及,激增的网络数据流给入侵检测的实时性、准确性等方面提出了更高的要求。大量攻击行为隐藏在数据流中难以被发现,如何从数据流中发现攻击行为成为了当前研究的热点。将数据流挖掘技术应用在入侵检测中,可及时处理不断到来的数据流,提高检测的实时性。基于误用的入侵检测系统具有高检测率,但无法识别未知行为;基于异常的入侵检测系统可以发现未知攻击,但误报率较高。如何将二者较好地结合起来,实现高检测率、低漏报率和低误报率的入侵检测系统是目前需要解决的问题。本文所做的工作有以下几个方面:考虑到当前网络环境的负载较高,将基于误用的入侵检测技术和基于异常的入侵检测技术相结合,提出了基于数据流挖掘的入侵检测系统框架。在网络数据采集后,首先采用规则匹配的方式对已知类型的攻击行为进行过滤区分;然后将数据包传递至数据管理模块,并根据已识别行为和未知行为将数据包分开进行存储;数据挖掘模块根据用户的请求,对指定时间区间内的数据进行信息提取,从中发现未知的攻击行为;最后将发现的异常行为转化为新的匹配规则,并反馈至过滤模块,增强误用检测的检测能力。针对数据流高速到达、高维度和混合属性等特点,本文依据CluStream算法的两阶段聚类思想,提出了HWFStream数据流聚类算法。在线阶段利用信息熵进行特征提取,对数据流进行增量微聚类,根据聚类结果提取微簇概要,并保存到磁盘或外部存储器中;考虑到模糊聚类效果易受初始聚类中心选取的影响,离线阶段利用布谷鸟搜索对模糊聚类算法加以改进,优化初始聚类中心的选取过程。考虑到数据流概念漂移等问题,算法引入时间衰减窗口,在微簇概要结构中添加权值属性,以确定不同时间段形成的微簇,在离线阶段对于聚类过程的影响。在KDDCUP99数据集上的对比实验结果表明,HWFStream算法能有效处理高维数据流,对混合属性数据的聚类效果较好,且不易受到数据中孤立点的影响。将提出的入侵检测框架应用在实际项目中,利用基于误用的Snort入侵检测系统对数据流进行匹配过滤,并在此基础上通过实现本文提出的HWFStream算法,对过滤后剩余的未知数据进行挖掘,发现其中存在的异常行为。经过项目测试,该框架能快速检测出已知类型的攻击行为,并对异常行为进行区分识别,具有较高的检测率和实时性。