论文部分内容阅读
随着计算机和互联网技术的蓬勃发展,威胁和破坏计算机和网络安全的入侵行为层出不穷。入侵检测系统是用于检测计算机和网络中异常活动的工具,是实现更高安全性的有效途径之一。面对目前网络流量激增的情况下,入侵检测系统在处理这些高维的大型数据集时,效率和精度会明显下降。因此,为了解决这个问题,本文将特征选择方法应用于入侵检测中。特征选择是机器学习的重要技术之一,通过特征选择方法对数据进行预处理,筛除海量数据中一些冗余和不相关的噪声数据,将高维空间数据转换成低维空间数据,然后将精简后的数据集用于分类器的训练,最后达到提高分类性能和入侵检测效率的目的。经典的特征选择算法MIFS将互信息(Mutual Information,MI)作为评价特征子集的度量标准,并通过计算特征与目标类之间的互信息的最大值和消除已选特征和候选特征之间的冗余度来选出最优特征子集。由于MIFS算法没有考虑到输入特征的数量对特征之间相关度的影响,于是改进的互信息特征选择算法MMIFS基于MIFS算法进行了优化,MMIFS算法采用了著名的评价特征子集的“最小冗余—最大相关”标准,目的是最大化目标类别和特征之间的互信息量,也能将特征之间冗余度最小化。但这两种算法都需要用一个待定的比例系数对特征之间的冗余度进行校正,而选择一个合适的参数还没有一个准则,如果设置的参数值不恰当将影响特征选择的结果。因此,这两种算法存在一定的局限性。在深入研究了上述两种互信息特征选择算法后,本文提出了一种优化的的互信息特征选择算法OMIFS,并结合LSSVM分类器建立入侵检测系统,然后利用MATLAB平台在NSL-KDD入侵检测数据集中将所提算法OMIFS与改进的基于互信息的特征选择算法MMIFS、基于线性相关的选择算法LCFS进行了对比实验。实验主要对比分析不同特征选择算法对数据进行特征选择以后用于同种分类器LSSVM的分类性能,并把基于OMIFS+LSSVM模型的IDS和不同分类算法应用于IDS的性能进行对比分析。仿真结果表明,在NSL-KDD数据集中,OMIFS算法比其他两种特征算法更有利于提高分类性能,并且通过与基于SVM算法和Clustering算法的IDS对比,基于OMIFS+LSSVM的IDS的入侵检测性能更好。