论文部分内容阅读
基于统计学习理论尤其是其中的结构风险最小化原则,强调机器学习推广和泛化能力的支持向量机(SupportVectorMachine,SVM),是继人工神经网络(ArtificialNeuralNetwork,ANN)后机器学习领域中最重要的进展之一。对SVM研究文献的调研表明,在经历了20多年广泛深入的研究之后,SVM至今仍然是机器学习界最活跃的研究领域之一。本文通过对C参数SVM分类学习机(CParameterSupportVectorClassification,C-SVC)超级参数有效范围国内外相关研究进行了广泛深入的调研和综述后,得出结论:现有文献对超级参数范围或初始值的设定均是凭经验至多是半经验进行的。由此可以断言迄今尚未发现有专门针对SVM超级参数有效范围的系统化研究。基于这一结论,本文确立了以高斯核函数(也称为径向基函数,RadialBasisFunction,RBF)C-SVC超级参数有效范围为研究对象,以寻找依赖于SVM内在和本质属性且数据集相关的超级参数有效范围确定方法为研究目标。论文在表述了研究背景及意义、综述了国内外研究现状、阐述了SVM的基本理论和基本求解算法后,对所确立的目标开展了综合深入的研究,并进行了大量的基础性和验证性实验。概括起来取得了如下的研究成果:1)通过对C-SVC的调参研究文献以及应用调参的研究文献进行了详细深入的调研和综述,得出了如下重要的结论:SVM调参难度源自于SVM推广误差相对于超级参数是一个非凸的多极值函数,并以GSk-CV误差面和典型调参结果比较实验证实了这一事实。通过支持向量个数随参数的变化曲线证实了C-SVC的一个重要性质:当小到一定程度时,所有的少数类样本均成为支持向量,且多数类样本支持向量的个数与少数类样本相同。根据推广误差随参数的变化曲线,得出了可以通过调用对训练集整体的SVM训练实现简单调参方法的结论。2)根据经验分析给出了一种数据集相关的确定有效范围的算法和一种确定值有效范围的算法。实验结果表明它们是有效可用的,可以使GS5-CV的计算量减少到。3)根据RBF核函数的渐近特性设计了一个确定参数有效范围的数据集相关的启发式方法。根据SMO算法,推导出了一个关于的参数下限函数。也是数据集相关的,而且可以适用于任何的核函数。实验结果表明上述方法能够较好地刻画RBFSVC超级参数有效范围的特殊形态。4)本论文最具创新的研究成果是找到了一个贴切和完美地刻画RBFSVC超级参数有效范围的特殊形态的系统化方法,该方法同时还给出了求解参数有效范围更加科学的方法。它包括如下要点:(1)将SVC在值达到某个下限值时的优化问题表述为组合最优化问题,并提出了求解该问题的一个GreedySearch方法。(2)将值达到时SVC的多数类样本间隔界和分类界表达为一个关于和的线性方程组,并利用GreedySearch方法的结果提出了以LMS求解该方程组以获得和的方法。针对RBFSVC,LMS解出的是与RBF超级参数相关的,因而也就得到了关于的又一个值下限函数。(3)根据值很大时RBF核函数趋于0的性质,分析出了在值超过某一高限值时不再随变化的特性,并据此获得了关于有效范围的上界。(4)根据值很小时RBF核函数趋于1的性质,分析出了在值超过某一低限时渐变为一条直线的特点,据此并借用SVC分类间隔的经验截止值获得了有效范围的下界。实验结果充分验证了上述方法能够贴切和完美地刻画RBFSVC超级参数有效范围的特殊形态。上述4项研究成果既体现了本论文充足的调研综述、分析推导、算法设计和实验计算工作量,也表明了论文达到了计划中的研究目标。