论文部分内容阅读
支持向量机(Support Vector Machine,SVM)是由Boser,Guyon和Vapnik发明,并首次在计算学习理论(COLT)1992年年会论文中提出。它是继人工神经网络后,智能计算领域发展的又一里程碑。支持向量机以严格证明的统计学习理论为基础,使用核函数把数据从样本空间映射到高维特征空间,将非线性问题转化为线性可分问题,获得最优解,是一重大的理论创新。支持向量机有严密的数学基础,训练结果只与支持向量有关,且泛化性强,成为了解决非线性问题的重要工具,因此,受到智能计算领域学者的广泛关注,在模式分类和回归领域得到了广泛的应用。本文在前人成果及前期工作的基础上,根据支持向量机训练结果只与支持向量有关的特性,重点研究了大样本条件下,以降低核矩阵规模、逐步搜索支持向量、快速构建支持向量回归机(Support Vector Regression,SVR)为目的的SVR算法;以及在异常数据剔除、故障检测、没有确切定义的目标变量定义和铁水脱硫、提钒中的应用。论文的主要创新点可以归纳如下:(1)简要证明支持向量回归机存在近似超平面。根据支持向量机训练结果只与支持向量有关,与非支持向量无关,且支持向量分布于超平面附近也必然分布于其近似超平面附近的特性,提出了从近似超平面出发构建的支持向量回归机算法――支持向量逐步回归机算法。算法的核心思想是:应用核函数k ( x , x_i )( x_i为支持向量)转换训练样本到特征空间;计算在特征空间中样本点到近似超平面的距离,并按距离升序对样本排序;抽取距近似超平面距离最小的m个样本与上次训练的近似超平面的k个支持向量一起构成新的训练样本子集;训练新的近似超平面;这样反复循环,逐步搜索支持向量。由于转换训练样本到特征空间的时间复杂度与近似超平面支持向量个数k有关,转换计算费时,用|y-f(x)|代替样本点到近似超平面的距离改进支持向量逐步回归机算法,可减少训练样本从样本空间向特征空间转换的时间花销。由于每次从搜索剩余样本中抽取距近似超平面最近的m个样本时,按照距近似超平面的距离升序对训练样本排序要花费O(l~2)的时间花销,改进该步可降低支持向量逐步回归机算法的时间复杂度。其改进思想是:将搜索剩余样本的前面m个样本距近似超平面的距离和样本编号存入2m个存储单元中;求取这m个样本中距近似超平面的距离最大样本的距离及样本编号;每计算一个新样本距近似超平面的距离就与之比较,如果新样本的距离小于这个最大距离,就用它置换存储的m个样本中距近似超平面距离最大样本;执行一次循环抽取m个样本。改进后,