论文部分内容阅读
现今,大数据、云计算和物联网等技术日新月异,网络环境也日趋复杂。数以亿计的网络接入点、大众化的物联网设备和频繁交互的网络应用所产生的数据不断的增加,以及不断增长的维度和复杂的网络行为给网络安全带来了巨大的挑战。传统的浅层模型面对日益复杂的入侵行为,效率变得低下,甚至无能为力。本文将深度学习和半监督聚类应用到入侵检测领域中,利用深度学习进行无监督的多层映射,学习更加复杂的函数,将原始高维网络数据抽象为更加优异的低维特征表示,然后进行半监督聚类,从而实现入侵检测。本文主要工作可分为三个方面:(1)本文提出一种基于深度自编码网络的降维模型。首先采用多层改进的自编码器建立高维空间和低维空间的双向映射的自编码网络,通过无监督方法进行逐层学习权值,然后自顶而下进行监督微调权值。(2)面对少量标签数据的情况下,将半监督聚类引入到入侵检测领域,提出两种半监督聚类方法用于入侵识别。半监督聚类的思想是通过某种方法利用标签数据中携带的监督信息(标签、成对约束条件等)指导无标签数据聚类。本文提出一种聚类中心选取算法,利用该算法从标签数据中选择一些具有代表性的对象作为聚类中心,然后利用基于距离相似性测度的方法进行聚类,最后利用基于密度的方法进行聚类优化。(3)结合以上的工作,提出了一种基于深度学习和半监督聚类的入侵检测框架。主要分为三个步骤:首先是预处理阶段,采用高维特征映射方法将原始数据维度映射为122维,以增强数据的辨识度。其次是基于深度自编码网络的降维阶段,将122维原始数据经过堆叠的自编码网络抽象为10维数据。最后是入侵识别阶段,将10维的抽象特征分别通过基于距离和密度的半监督聚类算法进行迭代聚类,从而实现对入侵行为的识别。通过多次实验得出了深度自编码网络降维模型的最优结构和参数设置,以及将本文提出的入侵检测模型与其他模型对比,本文提出的模型对不同类型的攻击检测具有较高的检测率,比较低的误报率。本文提出的入侵检测框架具有如下一些优点:适用于高维网络特征数据;提升了深度自编码网络编码能力;具有未知网络攻击的检测能力。