论文部分内容阅读
信息技术与互联网技术的快速发展,给人们的生活带来诸多便利,同时也带来了很多信息安全方面的问题。信息安全问题会影响个人或企业对网络的安全需求,甚至会给国家带来不同程度的威胁及损失。为了保证网络信息的安全,需要提出有效的安全防御措施。目前,基于数据挖掘技术的入侵检测已经成为一种重要的防御技术,受到学者们的广泛关注。在对入侵检测方法的研究过程中,随着数据规模不断扩大、复杂性不断增加,出现了数据类别分布不平衡的问题,如何有效地处理入侵检测系统中出现的不平衡数据成为一项新的挑战。本文对不平衡数据分类问题进行深入研究,主要针对不平衡数据集中的少数类样本的检测问题,本文提出了两个新的入侵检测模型,分别为基于抽样算法及模糊支持向量机的入侵检测模型(FSVMs)与基于集成特征选择算法及多分类器的入侵检测模型(F_SDK)。为了有效解决入侵检测系统中不平衡数据分类问题,提高检测模型对少数类样本的分类性能,本文通过对多种数据处理方法的研究,结合了抽样算法、半监督方法和模糊支持向量机的思想,构建了一个新的入侵检测模型(FSVMs模型)。该模型首先利用合成少数类过采样技术对数据集进行处理,使得数据集变得相对平衡,使模型能有效学习到少数类样本的信息,然后将抽样处理后的数据样本输入到基于模糊原理的半监督支持向量机分类器中进行训练学习。为了验证FSVMs模型的检测性能,本文在由KDDCup99和NSL-KDD数据集生成的十个多分类不平衡数据子集上进行了实验,采用召回率、准确率、精确度、误报率、F分数和G平均六个性能指标作为模型评价标准。实验结果表明,FSVMs模型可以提高入侵检测系统的检测性能,尤其是对分布稀疏的U2R和R2L两种攻击类型的检测性能有明显地提升。本文通过对多种特征选择算法、集成方法和分类器理论的学习和研究,构建了另一个新的入侵检测模型(F_SDK模型)。该模型首先利用集成的特征选择算法进行数据集的重要特征提取,集成了基于相关性和基于互信息的两个特征选择方法的特征评估结果,选择出最有价值的特征组合;然后采用多分类算法对特征提取处理后的数据进行模型训练,该模型训练多个不同的分类器,每个样本得到多个不同的预测标签,最后使用多数投票原则确定测试样本最终的分类标签。为了验证F_SDK模型的检测性能,本文在NSL-KDD数据集上进行了实验,并使用准确率、精确度、召回率、F分数和G平均五个性能指标作为模型评价标准。实验结果表明,F_SDK模型可以很好地解决不平衡数据分类问题,提高了入侵检测系统对分布稀疏的U2R和R2L两种攻击的检测性能。