论文部分内容阅读
基于统计学习理论和结构风险最小化原理的支持向量机(SupportVectorMachine,简称SVM)是一种非常有力的机器学习新方法,较好的解决了困扰很多学习方法的小样本、非线性、过学习、维数灾难、局部极小等问题,具有很好的泛化能力。由于这些良好的性能,支持向量机和统计学习理论开始受到越来越广泛的重视并得到了广泛的应用。但是当训练样本的数目很大时,支持向量机的训练需要的时间和计算机内存急剧增加,这阻碍了支持向量机在解决大样本问题上的应用。因此为支持向量机解决大样本问题设计快速高效的训练算法得到了研究人员的极大重视。另外对于大样本问题,支持向量机往往具有数目众多的支持向量,由于非线性支持向量机的决策函数的复杂度由支持向量的个数来决定,大量的支持向量导致了高度复杂的决策函数和较低的分类效率。因此提高解决大样本问题的支持向量机分类速度也是十分有意义的研究。
本文从支持向量机的理论、方法和应用相结合的角度出发。在提高支持向量机训练效率,简化支持向量机的决策函数以提高分类速度以及应用支持向量机改进其他学习方法的性能方面进行了系统的研究。本文的主要工作和贡献包括以下内容:
1.根据支持向量的特殊性质,提出了候选支持向量的概念,并设计了从训练集合中选择候选支持向量的方法,在此基础上提出了利用候选支持向量代替整个训练集合学习支持向量机的方法。实验证明本方法能够快速学习支持向量机,而且测试精度和利用全部训练集合得到的支持向量机相当。在本文的方法中,候选支持向量选择算法直接影响到训练得到的SVM的性能,约简的支持向量机(ReducedSVM,简称RSVM)能够快速得到决策函数,而且精度也是令人满意的,因此它提供了一种有效的候选支持向量选择算法。本文进而提出利用RSVM选择候选支持向量,再利用候选支持向量训练标准支持向量机。实验证明这种方法是十分有效的。
2.对于非线性支持向量机,支持向量的个数和决策函数的复杂度直接关联。为了简化支持向量机的决策函数,提高分类速度,必须减少支持向量的个数。本文提出了利用迭代学习和构造替代向量集合两种方法来简化支持向量机的决策函数,从而提高解决大样本问题的支持向量机的分类速度。实验证明这两种方法都能够获得支持向量数目减少的支持向量机,而且简化的SVM的精度和原始SVM相当。
3.对于最小二乘支持向量机,由于优化目标函数要使训练误差平方最小化,导致了稀疏性的丢失,使得所有偏离决策边界的训练样本都将成为支持向量。所以在解决大样本问题时,会导致决策函数非常复杂和较慢的分类速度,因此研究获得稀疏最小二乘支持向量机的方法是很有意义的研究。本文分析了现有获得稀疏最小二乘支持向量机方法的不足,提出了一种改进的稀疏最小二乘支持向量分类器。实验证明本方法比现有的方法具有更高的精度,而且决策函数更简单。
4.在解决大样本问题方面,经典近邻规则需要有效的典型样本选择算法来支撑。本文从支持向量机的训练得到启发,应用本文的SVM快速学习算法和分类算法,提出了两种近邻规则选择典型样本的方法,提高了近邻规则的效率。