论文部分内容阅读
随着互联网的不断发展与普及,网络安全问题也随之显现。人们在日常的生活、工作、学习中都离不开互联网的帮助。而面对数以万计的网络数据流量,网络入侵检测显得尤为重要,它能够对网络中捕捉到的数据包进行建模分析和检测,从而发现已知或者未知的异常网络行为。论文提出了一种基于流形学习及自编码的网络入侵检测聚类算法。传统的网络入侵的聚类算法直接对原始特征矩阵进行运算,忽略了数据本身的深度特征以及内部之间的流形特征。如何有效得学习数据内部的流形结构以及挖掘数据的深度特征从而提高算法的表现,是本课题研究的重点。因此,本文提出了一种基于流形学习及自编码的算法(Manifold Learning and Auto-Encoding algorithm,MLAE)。该算法首先对网络连接数据进行预处理,利用流形逼近与映射得到包含数据的整体流形结构的特征数据,然后对每个原始数据与流形结构数据进行自编码学习,得到学习后的数据特征,最后,对这些包含流形特征与自身特征的数据进行聚类分析。本文的主要工作如下:(1)通过对传统的入侵检测技术进行了研究与分析,提出了一种通过流形逼近投射方法来指导自动编码器学习的聚类算法。通常来说,入侵检测数据集中存在数据冗余、特征冗余、维度爆炸等相关问题,MLAE算法能够通过流形学习方法将数据映射到低维空间,再指导自动编码学习,输出包含流形特征以及自身特征的融合数据,最后通过聚类算法检测异常网络行为。(2)对NSL-KDD数据集包含的特征进行了详细的分析。本文选取了NSL-KDD数据集,该数据集相对于KDDCup 1999数据集有较大变化,NSL-KDD数据集去除了大量冗余的网络流量数据,而且入侵数据与正常数据所占比例相对平衡,因此能够作为网络入侵检测的基准数据集。数据集不仅包含数值型数据,而且还包含多种字符型数据。在使用前需要对数据集进行预处理,将字符型数据转换成机器可处理的数值型数据。同时,需要将多个特征进行归一化处理,减少不同特征之间的量纲不同带来的影响。(3)对MLAE算法性能进行了对比和仿真实验分析。为了验证MLAE算法的有效性,本文选取了多个聚类评价指标(ACC、NMI、ARI和F1),对算法性能进行了仿真实验分析。实验结果表明,MLAE算法在多个聚类评价指标上均优于单一的聚类算法。