论文部分内容阅读
在当前网络攻击手段不断演变、攻击范围不断扩大的情况下,入侵检测成为保护计算机网络安全的重要手段。监督学习仍然是目前入侵检测技术的主流方向,其中基于异常的网络入侵检测是入侵检测的一个重要研究和发展方向。近年来,随着不断发展的大数据和云计算技术,Spark分布式计算框架已经成为广泛应用的一种高效数据处理和分析工具,这主要得益于分布式计算和内存计算技术的优越性。相比传统的入侵检测算法,基于Spark的算法可以在处理大规模数据时显著提高检测的准确率和性能。针对传统机器学习算法检测能力不足,面对规模大、维度高的数据时训练时间较长的问题,本文提出了一种基于PCA-SRF的入侵检测算法。PCA可以将高维数据降低到更低的维度,减少数据的冗余信息和噪声,提高数据的可分性。随机森林算法是一种基于决策树的集成学习算法,通过构建多棵决策树并集成它们的分类结果,提高了分类器的准确性和鲁棒性。为了评估该模型分别在KDD Cup 1999数据集和CIC-IDS-2017数据集上进行实验,结果表明,该模型具有较高的准确率和较短的训练时间,分别为99.68%、99.54%和3.98s、44.19s。针对单分类器进行多分类检测能力不足和对小样本数据识别能力不足,本文提出了一种基于One-vs-Rest分类器的集成学习入侵检测算法。该算法采用逻辑回归、支持向量机、决策树、随机森林、梯度提升树和朴素贝叶斯算法作为One-vs-Rest分类器的基分类器,并将它们组合成一个更强大的分类器。使用该模型在KDD Cup 1999数据集和CIC-IDS-2017数据集上进行多分类检测,结果表明,One-vs-Rest-GBT、One-vs-Rest-DT和One-vs-Rest-RF在两个数据集中都具有较高的准确率,在前者数据集中分别为99.89%、99.88%和99.68%,后者数据集中分别为99.39%、99.63%和99.7%。