论文部分内容阅读
决策树在数据分类上具有较好的效果,但容易产生过拟合的现象,解决方法是对决策树进行剪枝处理。然而,传统剪枝算法有以下不足,预剪枝容易产生欠拟合问题,后剪枝时间耗费高,网络搜索剪枝仅适用于小型数据集。为解决以上问题,提出一种新型的参数剪枝决策树算法,藉由找出合适的参数,以便训练出效能高的模型。总体分为两部分,第一部分是根据网络安全态势感知模型建立剪枝决策树态势感知系统架构,分析网络的数据流;第二部分是在生成决策树的过程中寻找最优参数,利用最优参数自上而下完成剪枝。第二部分算法实现过程如下,首先利用枚举算法与二分搜索算法找出决策树最大深度,然后采用深度优先搜索算法找到节点最小分裂数和最大特征数,最终结合这三个最优参数,生成决策树。实验结果表明,此方法在面对大型数据下过拟合的风险较小,训练集与测试集的准确率都在95%以上。同时,提出的参数剪枝算法与后剪枝算法中表现较好的悲观错误剪枝算法相比,快了近20倍。