论文部分内容阅读
态势特征提取技术是态势感知重要组成部分,其直接影响态势感知系统在异常行为检测的结果。然而,海量的网络流量数据存在高维、噪声和冗余特征等问题严重影响态势感知系统检测的准确性和实时性。特征提取技术在一定程度上能降低数据维度,提取能表征分类结果的最优特征子集。本文主要研究了机器学习特征提取方法在态势感知系统中的应用等相关问题,提出了基于机器学习的特征选择方法提取态势特征。本文主要的研究工作包括下面几个部分:1.使用混合模型的方式对网络流量数据集进行特征提取,其主要分为两个步骤,首先使用方差过滤器剔除数据集中冗余和无相关特征,再使用基于决策树的递归特征消除(Recursive Feature Elimination,RFE)算法对过滤后的数据进行特征提取和分类预测。通过特征过滤和提取两个步骤,大幅度的减少了模型训练的数据维度,模型中保留的都是能表征分类结果的有效特征子集。实验表明,特征提取后的模型分类效果较为提高,并大幅度的降低了模型训练时间,这对现实海量数据集中存在高维度和噪声问题是非常有应用价值的。2.使用了基于神经网络的特征提取方法,首先提出了一种将一维网络流量数据转换成二维图像的方法。然后设计了一种分类效果较好的CNN模型,利用该模型的卷积层和池化层对二维图像进行特征提取和数据降维。并在模型中引入了ReLU激活函数代替了传统的Sigmoid和tan激活函数,使模型的收敛速度更快;且该模型中引入了Dropout层来防止模型过拟合现象,使模型的泛化能力更强。最后使用构建后模型对二维图像进行分类预测,实验表明,该方法提高了模型的准确率和降低了误报率。3.提出一种基于降噪自编码器神经网络的无监督学习方法对NSL-KDD数据集进行特征提取和分类预测。并针对实验数据集,通过多组实验选出自编码器网络中隐藏层神经元个数、噪声因子和损失函数最优的参数值。该方法对异常流量检测率较高,可以解决现实网络中异常流量是极少数而导致数据样本不平衡的问题。