基于支持向量机的混合增量学习算法与应用

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:liongliong472
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine, S VM)是建立在统计学理论基础上的一种机器学习方法,其拥有坚实的理论基础。它在解决小样本、高纬度、非线性模式识别学习问题中有较多优势。其实质上是一个二次规划求解问题。本文的研究重点是基于支持向量机的增量学习算法研究及其在网络入侵上的应用。在分析了支持向量机在对增量学习行为上面的不足,以及现有的一些增量学习算法的不足,提出了一种新的基于支持向量机的增量学习算法,即基于余弦相似度与函数距离的SVM增量学习算法,简称CSFD-ISVM.该算法的主要核心思想是利用样本集分布特点与历史训练结果来尽量的减少样本的数量。本文中提出了几种方法来筛选样本与加快样本筛选的过程。主要工作与创新总结如下:1)基于支持向量机的思想,最终的决策面只与少数支持向量有关,因此可以预取样本中的准支持向量,这样就可以大大减少参与训练的样本数,加快训练速度。提出了一种通过类别质心与余弦角度的样本预选策略。由大数定律,在大量样本中随机挑选一定数量样本的质心是逼近整体样本质心的,因此提出了使用随机抽取一定比例样本代替整体样本来计算样本余弦值的方法。在此基础上,本文提出了基于余弦相似度与函数距离的增量学习算法。实验结果表明:基于余弦相似度与函数距离的增量学习算法有效的降低了训练时间,同时又可以提升训练精度。2)通过对增量学习前后样本分布的变化进行分析发现:历史样本中的有用信息除了支持向量,还有同样非常重要的边界非支持向量,针对边缘向量的提取,本文提出了一种基于余弦相似度与函数距离的预取策略,并且通过实验分析了算法中函数距离的容忍因子对增量学习的影响,表明该方法对增量学习的精度有较明显的提升。通过UCI标准数据集与其它数据集的仿真实验结果表明,本文提出的基于余弦相似度与函数距离预取策略的增量学习算法是可行的和有效的。最后将其应用到网络入侵检测,通过KDD CUP99数据仿真实验,本文提出的混合增量学习算法在训练速度与检测速度上都有不错的表现,而且保持高检测率与低误报率,因此很适合用来训练入侵检测中的分类模型。
其他文献
Web上的信息根据深度可以划分为两大类:Deep Web和Surface Web。Deep Web中的信息比Surface Web中的信息质量更高、信息量更大,为了有效地利用这些信息,需要建立Deep Web数据
小肠运动性的定量评价可以揭示小肠运动机能的重要信息,在医学研究和临床应用方面意义重大。基于MRI(核磁共振成像)技术的小肠运动性定量评价通常需要人工检测小肠片段的轮廓
学位
随着计算机软硬件、人工智能技术的不断发展,以及各种智能电子设备和社交网站的流行与普及,人们在工作、生活、学习、社交和娱乐中产生了海量的数字图像,如何能够在互联网环
微波通信是指利用微波(射频)携带数字信息,通过电波空间,同时传输若干相互无关的信息,并进行再生中继的一种通信方式。微波通信传输网在运营过程中会产生各种设备故障和通信
在关于下一代网络的研究工作中,四川省网络通信重点实验室针对Internet面临的高速交换、服务质量保障、安全性和移动性等问题,提出了单物理层用户数据交换平台体系结构网络SU
本课题以飞跃汽车百货连锁销售服务公司为研究背景,依据公司决策层的需求,分析和设计了适合公司决策支持的数据仓库逻辑模型和物理结构,并对数据抽取、转换、装载(ETL)和数据
随着智能终端的普及,各种基于位置服务的应用层出不穷,这些应用对定位的要求越来越高。在复杂的室内环境中,如何快速准确获取终端位置信息,已经成为定位研究的重点。基于WIFI
近年来,随着计算机视觉的发展,图像信息在人们的工作和生活中扮演着越来越重要的角色。而从图像中提取感兴趣的区域的图像分割技术对于图像信息的理解与分析又起着至关重要的
近年来随着科技的不断进步,移动计算和无线通信技术得到了迅速发展。与此同时,人们对移动通信技术的要求也越来越高。目前,有两种不同移动网络的配置方式:基于基础设施(例如基
时间序列数据分布广泛,长期以来,不同领域时间序列数据大量积累,对时间序列的数据挖掘逐渐得到关注。本文以公共的股票数据组成的时间序列数据作为研究对象,将时间序列数据的