论文部分内容阅读
机器学习的一个重要的目标就是建立起从输入到输出的数学映射关系。在分类问题中,损失函数度量了样本正确或者错误分类的程度,并规定了对这一程度所需要付出的代价,从而也描述了学习得到的映射关系的质量好坏。损失函数不仅决定了机器学习模型的统计性质,而且也影响了问题求解时的计算开销。 现实生活中的数据广泛地存在着各种各样的噪音,对于分类问题来说,噪音可以分为两类:标签噪音和边界噪音。标签噪音指的是在错误分类一侧很远的样本点,对应于现实问题中标签采样出错的情况;边界噪音,也被称作特征噪音,指的是不同类别数据靠近部分的噪声点,对应于输入数据上的扰动。损失函数的选择很大程度上影响了分类器对于这两类数据噪音的敏感程度。本文主要从解决这两类噪音的角度出发,设计了两种全新的损失函数,同时将它们应用到支持向量机模型上去。我们不仅从理论上探究了所得到模型的各种性质,而且给出了相应的求解算法。主要工作和研究成果如下: (1)这一部分工作主要设计了一种针对边界噪音的全新的损失函数,叫做截断弹球损失函数,同时它也解决了弹球损失(pinball loss)函数支持向量机没有稀疏性的问题。对于支持向量机而言,损失函数除了影响对于数据噪音的敏感性,还决定了对偶变量的稀疏性,稀疏性对于问题的计算效率影响很大。传统的支持向量机采用了合页损失(hinge loss)函数,具有比较好的稀疏性,但是对于边界噪音很敏感。弹球损失函数支持向量机能够处理边界噪音,但是它对应的模型不具有稀疏性。新提出的截断弹球损失函数建立起了合页损失和弹球损失之间的桥梁,对应的支持向量机模型在能够处理边界噪音的同时,保留了一定程度的稀疏性。同时,诸如贝叶斯定理,误分类误差的上界,稀疏性,特征噪音不敏感性等等性质,我们都从理论上进行了深入的讨论。因为得到的优化问题是非凸的,我们采用了凹凸过程(concave-convex procedure)来处理模型的非凸性,采用了分解算法(decomposition method)来求解凹凸过程每一轮迭代产生的子问题。相应地,我们修改了知名的求解器LIBSVM来进行数值实验,并且在人工数据集和真实数据集都取得了良好的实验结果。 (2)这一部分工作主要提出了一种名为不对称截断弹球损失的全新的损失函数,它结合了滑道(ramp loss)损失和弹球损失的优点,能够同时处理两类噪音。滑道损失支持向量机能够处理标签噪音数据,同时具有比合页损失支持向量机更加好的稀疏性,但是它也没有考虑到边界噪音的问题。而新提出的不对称截断弹球损失函数同时具备对于标签和特征两类噪音的鲁棒性,对应的支持向量机也具有一定的稀疏性。贝叶斯定理等理论性质都得到了证明。合页损失,滑道损失,弹球损失,以及截断弹球损失都可以看作它的特殊情况,因此这是一个更为一般的框架。与截断弹球损失函数相似,不对称截断弹球损失支持向量机对应的优化问题也是非凸的,我们依然用凹凸过程和分解算法来求解。此外,为了处理大规模超高维问题,我们针对线性核的情况,专门给出了一个基于对偶坐标下降算法的实现。数值实验证实了这种新的损失函数的有效性。