论文部分内容阅读
支持向量机(Support Vector Machine, S VM)是建立在统计学理论基础上的一种机器学习方法,其拥有坚实的理论基础。它在解决小样本、高纬度、非线性模式识别学习问题中有较多优势。其实质上是一个二次规划求解问题。本文的研究重点是基于支持向量机的增量学习算法研究及其在网络入侵上的应用。在分析了支持向量机在对增量学习行为上面的不足,以及现有的一些增量学习算法的不足,提出了一种新的基于支持向量机的增量学习算法,即基于余弦相似度与函数距离的SVM增量学习算法,简称CSFD-ISVM.该算法的主要核心思想是利用样本集分布特点与历史训练结果来尽量的减少样本的数量。本文中提出了几种方法来筛选样本与加快样本筛选的过程。主要工作与创新总结如下:1)基于支持向量机的思想,最终的决策面只与少数支持向量有关,因此可以预取样本中的准支持向量,这样就可以大大减少参与训练的样本数,加快训练速度。提出了一种通过类别质心与余弦角度的样本预选策略。由大数定律,在大量样本中随机挑选一定数量样本的质心是逼近整体样本质心的,因此提出了使用随机抽取一定比例样本代替整体样本来计算样本余弦值的方法。在此基础上,本文提出了基于余弦相似度与函数距离的增量学习算法。实验结果表明:基于余弦相似度与函数距离的增量学习算法有效的降低了训练时间,同时又可以提升训练精度。2)通过对增量学习前后样本分布的变化进行分析发现:历史样本中的有用信息除了支持向量,还有同样非常重要的边界非支持向量,针对边缘向量的提取,本文提出了一种基于余弦相似度与函数距离的预取策略,并且通过实验分析了算法中函数距离的容忍因子对增量学习的影响,表明该方法对增量学习的精度有较明显的提升。通过UCI标准数据集与其它数据集的仿真实验结果表明,本文提出的基于余弦相似度与函数距离预取策略的增量学习算法是可行的和有效的。最后将其应用到网络入侵检测,通过KDD CUP99数据仿真实验,本文提出的混合增量学习算法在训练速度与检测速度上都有不错的表现,而且保持高检测率与低误报率,因此很适合用来训练入侵检测中的分类模型。