论文部分内容阅读
随着互联网的飞速发展,移动支付和各种基于OTT (Over The Top)的通信工具越来越成熟,使用人数和频率也越来越高。自由开放的互联网暴露在黑客、木马、病毒及其他恶意操作之下,入侵事件不断发生。面对严峻的网络安全形势,部署包括入侵检测系统在内的网络安全设备是有效的解决方案,入侵检测系统是一种积极主动的防护工具和风险评估依据,已经成为当前研究的热点之一。现在大部分的入侵检测系统都是基于模式识别原理,但对不同网络环境配置入侵检测规则需要丰富的专家经验,并且需要不断地更新规则库来应对新出现的攻击。实际使用中有时会产生很多合法程序的误报警,难以识别出真正有效的信息。基于传统统计学的机器学习方法,虽然在理论上很优秀但研究的前提条件是样本数量趋于无穷大,这在实际应用中很难满足。支持向量机理论(SVM)很好的解决了这些问题,在高维小样本数据的分类中表现优秀,具有较好的泛化能力。本文的工作主要有以下几点:1、研究了基于支持向量机的相关概念和理论,介绍了随机森林和SVM-RFE算法,阐述了特征选择的概念和四个过程。2、介绍了公用入侵检测框架CIDF,依据此提出了一种改进的基于SVM的入侵检测系统模型,并对整个系统进行了概要设计。主要分析了各个模块的功能和模块之间的数据流动,并给出了总体入侵检测系统设计流程图。3、针对SVM采用传统的网格搜索法搜索参数效率低的问题,本文提出了一种改进的遗传算法优化搜索参数的方法,对传统的遗传算法进行了改进,结合迭代的次数调整交叉概率和变异概率,并和分布式计算相融合。相比网格搜索有效的提高了参数搜索效率。4、针对SVM处理高维大样本数据集时训练模型时间长的问题,本文提出了一种结合改进的随机森林算法和RFE算法的组合特征选择算法,从原始特征集得到最优特征子集。相比传统的方法缩短了模型训练的时间。5、对改进的入侵检测模型的每一个功能模块进行详细设计和编码,本文主要基于Libsvm和Weka进行改进和开发。然后分别对每一个模块和整体系统使用KDD-CUP99数据集进行模块测试和整体系统测试,给出了实验过程和采用的评价标准,最后给出实验结论。最终的实验结果表明,和传统的入侵检测系统相比,本文提出的改进的基于SVM的入侵检测系统对四种类别样本的分类准确率均有所提升,优化了参数搜索,大大缩短了训练时间。