论文部分内容阅读
随着互联网技术与现代工业生产逐步融合,网络在使生产制造更加智能高效的同时,也使工业互联网面临更多的安全威胁。因此,保护网络信息安全,及时发现和处理异常访问数据,对于保障工业互联网安全稳健地运行至关重要。入侵检测系统作为网络安全防御工具,能够快速检测和识别恶意入侵并做出应急响应。在基于数据挖掘的网络入侵检测中,入侵检测系统需要处理的数据以静态数据集或动态数据流的形式存在。面向静态数据集的入侵检测,极易因为数据冗余造成数据挖掘算法效果不佳,并且消耗大量计算和储存资源;面向动态数据流的入侵检测,因为观察样本有限,可能导致建立的数据挖掘模型不能很好地适应数据流的动态变化。基于上述问题,本文做出如下工作:1.论文基于经典决策树算法的基本概念、核心算法和实现过程,分析了在静态数据集和网络数据流环境下,决策树算法在设计原理、实现细节、和主要诉求上的联系与区别。2.针对面向静态数据集的入侵检测中数据冗余影响数据挖掘算法效果的问题,论文提出了一种基于树模型的数据约简方法。该方法作为一种数据预处理手段,结合子群发现技术对数据集进行数据筛选,减小数据集规模、合理划分数据集,从而减少后续数据挖掘算法的计算开销。多个数据集的实验结果表明,该方法能够有效削减数据集规模;结合决策树分类算法,KDDCUP1999入侵检测数据集的实验结果表明,经过数据约简后的数据集能够建立结构紧凑、体积更小的决策树,并且在保证分类准确率的基础上有效提升决策树分类的效率。3.针对面向动态数据流的入侵检测中利用有限样本建立的数据挖掘模型不能充分适应数据变化的问题,论文改进并提出了一种基于概率估计的快速决策树分类算法。该算法以快速决策树模型(Very Fast Decision Tree,VFDT)为基本框架,结合拉普拉斯平滑和威尔逊区间均值估计两种概率修正方法,对属性测试条件做出调整以选择最佳分裂属性。NSL-KDD入侵检测数据集的实验结果表明,改进算法能够获得结构紧凑、体积更小的快速决策树模型,并且在保证模型对数据流的预测能力的同时提高了模型对数据流演变的适应性。