论文部分内容阅读
支持向量机是基于统计学习理论,以结构风险最小化为原则的一种针对小样本情况的新型机器学习方法,具有结构简单、全局最优解和泛化能力强等优点.支持向量机目前已成为机器学习领域解决分类问题和回归问题的有效工具.然而,在现实问题中,由于受到各种因素的影响,样本数据通常含有噪声和异常值,这些数据使支持向量机的学习能力受到影响,表现在对异常值较敏感、鲁棒性较差等.本文拟从损失函数的角度出发,应用最优化理论与方法,研究具有鲁棒性的支持向量机改进模型与求解算法,使其能更有效地解决实际问题.本文的研究工作包括以下几部分内容:1.针对支持向量机对噪声和异常值较敏感的问题,提出一个斜率可变、间隔可变的非凸广义线性损失函数抑制异常值的影响,并在此基础上建立鲁棒支持向量回归机模型.该鲁棒模型能够更灵活地处理回归估计问题,同时对异常值具有较强的抑制作用.由于非凸广义不敏感损失函数是不可微的,提出两个可微的huber损失函数对其逼近,将鲁棒模型对应的优化问题改写为一个DC (Difference of Convex functions)规划,并利用牛顿算法进行求解.同时,分析了算法的计算复杂度和收敛性.利用公开的标准数据集、金融时间序列数据和排序学习数据进行数值实验验证该模型和求解算法的有效性.2.在二次不敏感损失函数的基础上,提出一个系数可变、间隔可变的非凸广义二次不敏感损失函数.通过限定该损失函数的上界为常数来抑制异常值的影响,并建立基于该损失函数的鲁棒支持向量回归机模型,设计模型的求解算法.标准数据集实验表明提出的模型对异常值不敏感,而且具有一定的稀疏性.3.为了克服最小二乘支持向量机对异常值较敏感的缺陷,构造一个非凸二次损失函数限制异常值的负面影响,提出基于非凸二次损失函数的鲁棒最小二乘支持向量回归机模型.非凸二次损失函数可表达为两个凸函数的差,因此提出的鲁棒模型可改写为一个DC规划.根据凹凸过程和最优性条件,鲁棒模型的优化问题的最优解可通过迭代实现,每一步迭代只需求解一个线性方程组.利用模拟数据和真实数据集实验验证了模型的有效性.4.针对最小二乘支持向量机对异常值较敏感,鲁棒性差等问题,采用Laplace损失函数削弱异常值在最小二乘支持向量回归机模型中的影响,建立了基于Laplace损失函数的鲁棒最小二乘支持向量机模型.由于Laplace损失函数不可微,对应的优化问题存在求解上的困难.我们用Huber损失函数去近似Laplace损失函数,并利用牛顿法求解相应的鲁棒模型.模拟数据和标准公开数据的数值实验结果表明,对比标准的最小二乘支持向量机,我们提出的模型能够获得更好的鲁棒性.