论文部分内容阅读
支持向量机(Support Vector Machines,简称SVM)是由Vapnik等人于上世纪末提出的一种新的机器学习技术,它是统计学习理论的核心部分,具有全局最优、结构简单、推广能力强等优点,目前在模式识别、信号处理、控制、数据挖掘等多个领域都得到了广泛的应用。但是经典的支持向量机不支持增量学习,在大规模数据的情况下,训练速度会下降,因此提高学习算法的分类性能对SVM增量学习的研究具有重要的理论意义和实用价值。本文主要的研究工作是,在现有支持向量机算法的基础上,寻找一种新的基于加权增量的支持向量机学习算法,使得该算法在大规模数据样本的情况下,仍然能取得较好的分类性能。该算法的改进主要体现在以下两个方面:一是由于噪声和其他多种不确定因素的存在,使得某些样本严重偏离所属的类别,而现有的增量算法在处理样本时要求训练数据彼此独立、且具有相同的分布规律,对所有样本同等对待,这显然对于正常分布的样本不公平,因此应该采用一种处理加权分布信息的识别算法;二是在增量学习过程中,研究了支持向量机寻优问题的KKT条件与样本分布之间的关系,在保留原有支持向量的基础上,观察到违背KKT条件、以及满足KKT条件且与原分类面距离较近的这两类样本,在新一轮训练之后转化为支持向量的可能性比较大,算法通过选取这些样本既有效地保留了样本的类别信息,也及时剔除了对后续分类影响不大的样本,提高了算法处理大规模数据量的能力。论文各章节的主要内容概括如下:第1章介绍了支持向量机的研究背景、研究现状,并给出了本文的研究内容;第2章对支持向量机算法的理论知识进行了概述,描述并比较了目前研究与应用较多的三种变形算法,为本文后续的研究方向与内容进行铺垫。第3章研究了增量式支持向量机算法的原理,对现有的三种比较典型的增量式支持向量机算法进行了分析和比较。第4章总结了现有增量算法的一些不足,在这个基础上提出了一种新的基于加权增量的支持向量机分类算法,并在标准数据集上对该算法性能进行了测试。最后第5章总结了本文的主要研究成果,并指出下一步的研究方向。