论文部分内容阅读
统计学习理论是在有限样本情况下新建立起来的统计学理论体系。统计学习为人们系统地研究小样本情况下机器学习问题提供了有力的理论基础。支持向量机(Support Vector Machine,SVM)是在该理论体系下产生的一种新的、非常有力的机器学习方法。它较好地解决了以往很多学习方法的小样本、非线性、过学习、高维数、局部极小点等实际问题,具有很强的推广能力。作为SVM方法的一个分支,最小二乘支持向量机(Least Squares Support Vector Machine,LSSVM)继承了SVM在理论与应用方面的许多研究成果。相对于SVM,LSSVM所具有的一些特性可以概括为:求解线性方程组,具有更快的求解速度,求解所需的计算资源较少,其解满足极值条件。本文首先阐述了论文研究背景和意义,介绍入侵检测的模型、分类,比较了应用于入侵检测的不同方法的优缺点。然后介绍了统计学习理论,支持向量机和最小二乘支持向量机的相关理论,提出了基于最小二乘支持向量机的网络入侵检测系统模型,并对模型的各个组件的功能、机制,实现进行了深入的探讨。对用于入侵检测的网络数据特征,本文利用异构数据集上的距离度量函数(Heterogeneous Value Difference Metric,HVDM)进行特征数据的预处理,针对LSSVM丧失鲁棒性的缺点,使用加权的方法增强其鲁棒性,由于计算经验风险的损失函数为二次函数形式,LSSVM丧失了标准支持向量机的稀疏性,导致了其训练完毕后,用于分类时的效率降低的特点,为使LSSVM具有稀疏性,本文从统计分析的角度出发,应用主成分分析的方法,对样本集进行特征提取,消除变量间的相关性,选取训练样本中分类作用最大的若干样本个体作为支持向量,并将非支持向量上的分类信息转移至支持向量上,从而改善模型的预测精度和泛化能力,提出了新的LSSVM稀疏化算法—基于主成分分析的最小二乘支持向量机算法,在模拟实验中,选取径向基核函数,将训练数据从低维空间映射到高维空间中,使数据在高维空间中能够线性可分,并采用三步搜索法进行参数的选择,使用贯序最小优化算法(Sequential Minimal Optimization,SMO)对样本集进行训练,实验结果表明,由此构建的稀疏LSSVM分类器保持了支持向量机的良好分类性能,而稀疏率相对高,其支持向量数甚至少于标准支持向量机,明显提高了LSSVM的分类效率和实时性。