加快SMO算法训练速度的策略研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ice_j88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(SVM)是以Vapnik的统计学习理论为基础,以结构风险最小化(SRM)为原则的新型学习机。它克服了神经网络的一些缺点,如过学习,维数灾难,易陷入局部最优等。因此,它成为目前机器学习领域的一个热门研究课题。当前对SVM的研究集中在训练算法的设计和应用上。大量的研究表明,作为一种解决模式识别问题和非线性函数的回归估计、预测等问题的新技术,sVM无论在模型拟合效果还是模型推广能力方面都表现出了良好的性质。而序贯最小优化(Sequential Minimal Optimization,SMO)则是一种著名的SVM训练算法,它使得SVM问题的求解摆脱了内存的限制,避免了子问题求解的误差积累。但是当面对大规模一般特点训练数据时,SMO训练速度十分缓慢。本文研究重点是提高SMO的收敛速度。我们的创新工作主要有以下几点: 大量的实验结果表明,SMO收敛速度慢的根本原因是SMO迭代后期当解空间缩小时而工作集搜索空间不变;由此我们以目标函数改变量为依据,在SMO迭代后期适当的减小工作集选择范围。该策略明显减少了很多无效的迭代,显著的缩短了SMO的训练时间,对大样本数据更是表现出了优秀的性能。 其次,考虑到在SVM的优化过程中并不是所有样本都能影响优化进展;因此在SVM<, Light>中的Shrinking策略的基础上,结合SMO选择工作集的特点,我们在SMO的迭代过程中实行改进的Shrinking策略,用来启发式的删除那些可能对优化进展没有影响的样本,以节省训练时间,增强SMO的抗干扰能力。我们提出了两种删除样本策略,一种是基于距离,一种是基于拉格朗日乘子的值。 最后通过对SMO每一轮优化过程中有效的工作集个数的分析,我们认为SMO的停止条件不能准确的判断出优化进展程度。结合目标函数改变量,我们引进一个阈值,用来在SMO迭代后期准确的识别出优化所处的阶段,以适当的废弃那些不能引起优化进展的循环。实验表明该策略可以在损失一点点精度的情况下,大大的提高大规模训练数据的训练速度。在几个著名的数据集的实验结果表明,本文提出的这些方法可以大大缩短SMO的训练时间,特别适用于大样本支持向量较多的数据。
其他文献
本论文首先研究的是自由积的定义性质(Defining Proper-ties).从新的角度出发来看待自由积结构,可以比较容易的判断出在某些范畴中自由积是否存在。另外讨论了一些其他的满足
自然和社会科学领域(物理学、生物学和经济学领域等)中出现的很多问题最终都可归结为一个非线性的偏微分方程,因此对于非线性偏微分方程的求解和研究就成为了各领域学者重要的研
在这篇综述中,我们简要介绍了共形场理论中的一个重要概念-共形块,并比较了共形块的两种实现方式的等价性.共形块本身作为一个数学对象有许多深刻的性质,在本文中,我们给出了共形
本文对几个非线性发展方程的Cauchy问题进行了研究。文章得到了各向异性的四阶非线性Schr(o)dinger方程的解在L2空间及能量空间的整体适定性.而且,我们证明了当各向异性参数趋
随着保险市场的逐步商业化,特别是在加入WTO后,我国的保险业面临着更加巨大的挑战。客户是保险公司生存和发展的根基,然而激烈的市场竞争使得越来越多的保险公司面临着严峻的客
随着人类社会的发展与科学技术的进步,在实际问题中经常遇到分类的问题。聚类是一个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区别不同的事物并
本文首先用形式化的语言描述了密码学的基础知识,特别注重介绍了一类特殊的身份认证体制——有证据不可区分身份认证及其签名。接着用形式化的语言定义了盲签名协议,给出了各
在生存分析和可靠性研究中,对治疗效果差异进行统计推断是一个很重要的课题。本文研究了两个问题:   第一部分是研究在两样本删失数据模型中,对治疗组和对照组的生存比较概
普通高中的逐步普及给中国的教育带来了巨大的生机,同时也给教育带来新的问题和思考。其中一个突出问题就是:高中的普及化,初中升高中录取分数线的下降,生源质量的下降,学困
《中华人民共和国行政许可法》已于2004年7月1日开始实行,实施《行政许可法》后,税收征管模式将从传统的收入管理型转变为执法服务型,其根本特征在于更加强调纳税人的诚实纳税,更