论文部分内容阅读
支持向量机是一种通用的学习机器,是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习问题的新工具.其核心问题是对一个大规模凸二次规划问题进行求解.分解算法是求解支持向量机的一类基于工作集选择的有效算法.隐私保护支持向量机算法则是在隐私保护数据挖掘算法基础上新兴起来的一个研究方向,在银行、保险公司、医学研究机构等行业有着广泛的应用.本文主要研究求解支持向量机的简化分解算法和针对分布式数据的隐私保护支持向量机算法,主要工作如下:首先,通过回顾支持向量机算法的发展过程及总结其研究现状,引出本文所做的主要工作.考虑到无论是原始支持向量机模型,还是本文重点讨论的隐私保护支持向量机模型,其本质问题是对一个大规模凸二次规划的求解,因此本文首先从研究支持向量机和对应乘子之间的关系着手,并给出一个新的分解算法.第二章中,基于支持向量机模型中支持向量的重要性,对支持向量和对应乘子之间的关系进行了理论分析,并借助图形,直观地分析了支持向量相对于决策面的几何关系.同时,通过对简化算法的终止条件及工作集选择的分析,探讨了违背和最大违背KKT条件对的几何含义,为直观理解终止条件及工作集选择方案提供理论依据.第三章中,通过对求解大规模支持向量机的分解算法中各种工作集选择方法的优劣进行比较,提出一类求解基于带有线性等式和上下界约束优化问题的大规模支持向量机模型的新分解算法.该算法每次迭代的可行下降方向从具有偶数个分量的相对稀疏可行方向中选取.在假设水平方向集中至少有一组下标对应的分量严格在上下界之间的前提下,证明了算法的全局收敛性,并通过数值实验验证了算法的有效性.本文的下半部分,主要研究隐私保护支持向量机算法.第四章和第五章,分别针对数据垂直分布与水平分布的情况,提出了两个隐私保护支持向量机算法.对于数据垂直分布的情形,算法直接基于矩阵分解的理论,给出的分类器是公开的,但是未泄露任何参与方的原始数据.对于数据水平分布的情况,与已有的SVM分类器不同,算法借助了安全多方计算的加密技术,给出的分类器是公开的,同样也未揭露任何参与方的原始数据.利用矩阵分解理论证明了算法的可行性.数值实验表明我们给出的隐私保护支持向量机算法的分类精度要比Mangasrian的简约隐私保护支持向量机算法的分类精度高.第六章,针对数据任意分割的情况,利用数据水平分布情况下的矩阵乘积的安全性策略,提出了一个隐私保护支持向量机算法,在未揭露任何参与方的原始数据的情况下给出了公开的分类器.该算法的分类精度比Mangasarian给出的简约隐私保护支持向量机算法的分类精度高.最后利用矩阵分解理论证明了该算法是可行的和有效的.最后,在第七章中,给出了现有支持向量机算法中存在的及本文尚未解决的问题,提出了进一步研究的课题.