论文部分内容阅读
在计算机网络迅猛发展的今天,Internet已经成为人们日常生活中必不可缺少的部分,网络安全也越来越成为人们关注的焦点。为了保证系统和网络资源的安全,就需要迅速而有效地发现各种入侵行为。随着网络入侵的多样化,传统的防火墙、数据加密等静态防御方式已很难胜任网络安全的需要,因此可以主动地对网络进行安全防护的入侵检测技术成为网络安全领域的重要发展方向。针对入侵检测方法和技术的研究也引起人们越来越多的重视。
入侵检测中对未知入侵的检测主要是由异常检测来完成,传统的异常检测方法需要构造一个正常行为特征轮廓的参考模型,但建立该模型需要大量纯净的正常数据集或标识好的数据集,而在现实网络环境中,很难保证在数据采集阶段没有入侵的发生,也很难对采集的数据进行标识。而不需要带标签数据进行训练的无监督检测算法大都有检测率低或误报率高的缺陷。为了克服这些不足,本文研究了如何把聚类技术和HMM检测技术结合起来应用于入侵检测这一领域。
本文主要开展以下工作:
(1)给出了一个基于聚类算法及隐马尔可夫模型的入侵检测模型。这个模型由数据收集模块、数据预处理模块、检测模块和响应单元等几部分组成。数据收集模块从网络上收集数据,由数据预处理模块对数据进行分类并用分离出的正常数据训练检测模块,从而建立一个反映系统行为模式的检测模型,再用这个模型检测待测数据是否异常,由响应单元做出响应。
(2)将隐马尔可夫模型用于构建检测模块。HMM具有算法成熟、效率高、易于训练等优点,能够很好的表述网络系统的正常行为模式,建模时需要的正常数据训练集也可由数据预处理模块将收集到的原始网络数据加以过滤后提取出的正常数据提供,不需人工标识。
(3)采用聚类分析技术对数据进行预处理,在不损失检测效率的情况下,大大减少了分析的数据量,缩短了检测时间。对收集到的未标记的、正常数据中混杂了少量入侵数据的网络数据进行分类,并标记各个类(“正常”,“可疑”,“异常”)。对标记的异常数据送响应单元;正常数据作为训练数据集。检测时,确定为异常的数据送响应单元,可疑数据送检测模块做进一步检测。
(4)最后使用KDD CUP99数据集对检测模型进行了测试,实验结果表明本文使用的方法有较好的检测效果,本模型既保留了HMM算法的较高检测效率,又不需要用人工的或其他的方法来对训练集进行标识,大大节省了时间。