论文部分内容阅读
在信息时代,每天大量新的网络数据涌入互联网,网络空间异常行为更加复杂多变,数据的高维属性,导致入侵检测面临检测效率、准确率低。为了建设安全可持续的网络环境,为互联网的快速发展提供保障,入侵检测系统引入新技术实现创新刻不容缓。常用特征选择方法引入入侵检测系统中,实现对网络数据的初步选择,达到对多维数据降维的作用,去除无关、弱相关、冗余的特征,提高分类的效率、准确率,减少误报率,提升了入侵检测系统的性能,实现系统智能化和满足现代网络空间安全检测要求。 本文参考了国内外特征选择算法在入侵检测应用的研究,研究了典型的四个特征选择算法,通过优势互补组合提出了两个新的,针对入侵检测系统的KDD CUP1999数据集降维方法。在本篇论文中做了以下主要工作: (1)四个算法对比分析:ReliefF算法不能区分已选特征集中特征间的相关紧密性;FCBF算法能高效处理特征之间的冗余性;Re-ReliefF算法在效率、准确率、误报率方面还不够好;最大相关最小冗余算法(mRMR)中特征间相关性表述的互信息度量准则,能更好地区分特征间的相关关系。 (2)改进的两个组合算法:ReliefF算法和FCBF算法结合,提出了一种两阶段Re-FCBF算法,分别对原始特征集进行相应的筛选,获得区分数据高效的特征组成的最佳特征子集;Re-ReliefF+算法在Re-ReliefF算法的基础上加入了最大相关最小冗余算法(mRMR)的思想,把作为特征间相关性表述的互信息度量准则引入其中,从而更好地区分特征间的相关关系,进一步去除冗余特征。 (3)改进的组合算法实验对比分析:KDD CUP1999作为入侵检测数据,采用支持向量机来训练数据和测试数据,获得相应的最佳特征子集在数据分类的准确率、误报率、漏报率、训练时间、预测时间。实验表明:Re-FCBF算法和Re-ReliefF+是一种有效的过滤式特征选择算法,它能够有效地去除无关、弱相关、冗余特征,提高入侵检测的效率、准确率,减少误报率。