论文部分内容阅读
支持向量机(Support Vector Machine, SVM)是一种有效的机器学习方法,适用于分类和预测等诸多领域。然而大规模数据形成的核在训练过程中往往难以存储或参与计算,使得算法本身不易于实现或复杂度过高。而约简支持向量机(ReducedSupport Vector Machine, RSVM)是这样一种方法,它预选取训练数据的子集作为支持向量,然后解一个更小规模的问题,有效地解决了SVM用非线性核处理大规模数据时的困难。关于约简集的选取方法,则是本文的研究重点。原始的约简集选取方法为完全随机抽取训练样本的1%~10%;IRSVM方法是通过解最小二乘问题逐步增加训练样本;系统采样RSVM(SSRSVM)是从一个很小的约简集开始,通过训练得到分类器,再对错分点采样选取来增加更多有用的支持向量。本文在此基础上,综合IRSVM与SSRSVM的优点,将SSRSVM对错分点的采样选取变为解最小二乘问题来选取,这使得对点的选取更加严格,减少不必要的迭代次数,从而得到新的改进算法,并通过实验说明在不增加复杂度的情况下,改进算法能够达到更好的分类效果。另外,在大量实验中,还发现训练集中一些特殊的点对分类效果起着关键的作用,通过比较近似核与全核的特征值以及特征向量来说明选取此类关键点的合理性。