支持向量机方法及应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:Answerallen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展和Internet的广泛普及,产生的数据量日益增多,如何从这些大量的数据中发现有用的信息来帮助人们对未知的现象作出正确的指导和预测,就成为了十分迫切的课题,机器学习技术就在这种需求下应运而生。统计学是现有机器学习方法的理论基础之一,尽管传统的统计学的理论体系比较完善,但是它需要事先知道样本的分布形式,并要求样本的个数趋于无穷多。但是在实际应用中,样本的数目是有限的,因此在某些问题的应用中其效果并不理想。基于此,统计学习理论是一门专门研究在有限样本情况下机器学习规律的理论。Vapnik等人从20世纪60年代开始致力于此方面的研究,随着其理论的不断发展,逐渐形成了一个比较完善的理论体系。Vapnik在统计学习理论的基础上提出支持向量机(Support Vector Machine,SVM),它克服了传统机器学习方法仅考虑经验风险最小化(Empirical Risk Minimization,ERM)原则的缺陷,SVM采用结构风险最小化(Structural Risk Minimization,SRM)原则对已有数据进行学习,通过求解凸二次规划问题(Quadratic Programming,QP)得到全局最优解,从理论上克服了神经网络中的过学习、局部最优解等问题。它不但能解决小样本的学习问题,而且通过引入核函数将数据映射到高维特征空间,克服了高维数据带来的“维数灾难”。SVM的诸多优点使其成为了机器学习领域新的研究热点。目前SVM仍然存在很多问题,这些问题也是研究热点。其主要问题存在于以下几个方面:1.参数选择问题无论是SVM分类还是回归,如果参数选择不当则会降低模型的泛化性能,因此选择较好的参数显得尤为重要,例如在C-SVM中,如果惩罚参数C的值过大,则会导致过学习,反之,如果C的值过小则会导致欠学习。目前参数选择理论一直受到广泛关注,目前有进化学习算法、网格算法、交叉验证等方法等。2.算法的时间复杂度自SVM提出以来,对它的复杂度进行改进一直是研究热点,SVM可归结为一个二次规划问题,但因为自由变量个数等于样本个数,所以当样本规模较大的时,传统的二次规划方法将会非常耗时。3.核函数计算复杂度对较大规模的数据来说,计算其核函数也并非易事,它需要所有样本进行内积运算操作。例如,在对SVM进行非线性变换的时候,如果样本数目过大,核矩阵的计算也将十分费时。本文的主要创新成果有:(1)为有效解决支持向量回归中的参数选择问题,提出了新算法(AGA-SVR),在该算法中,通过适时增加染色体变异的概率来提高染色体的多样性,克服了标准遗传算法存在个体容易早熟的缺陷,从而增加学习到全局最优的几率。通过将AGA-SVR应用于上证开盘指数预测,验证了该算法优于标准遗传算法及经典梯度下降算法。(2)提出了一种新的算法TDMSVM(Twin Distance of Minimum and Maximum SupportVector Machine),通过求解标准特征方程得到两个最优超平面,超平面满足到本类样例的平均距离最小化,同时到另一类样例的平均距离最大化。通过理论分析和实验证明,TDMSVM有以下优势:进一步降低了时间复杂度;并且不需引入正则项,故提高了泛化性能;克服了矩阵的奇异性。(3)提出一种新的快速分类算法HSSVM(Hyper Sphere Support Vector Machine),用两个超球分别拟合两类样本,只需用样本的均值和方差作为参数得到分类模型,在保证分类正确率的条件下将模型训练的时间复杂度降为线性O(m),并且模型对不平衡数据集有较强的鲁棒性。理论分析和实验表明该算法是一种快速有效的模式分类算法。(4)结合随机主成分分析和Nystr m提出一种新的算法。该方法可以加快计算基于核方法的速度,通过理论分析和实验表明该算法在保证近似精度的情况下,很大程度上减少了运算时间。
其他文献
分形是自然界中的几何学,分形图有多种多样,本论文所研究的装饰图案实际上也是分形图的一种。装饰图案在人类生活中有着举足轻重的作用,是人们智慧的结晶。随着人类社会的发展,装
近几年面向服务计算(SOC)的出现为分布式计算和电子商务提供了有效的解决方案,因此受到了很多企业的关注。服务是异构的、自治的、可计算的,尽管它们可能基于不同的平台或者
随着国际互联网的迅猛发展,网络已经成为人们发布和获取信息的一个重要平台。目前,大部分网页都是通过服务器根据请求从后台数据库中查询相关数据,然后展示到一个列表页面当
优化问题是一个古老而又具有挑战性的问题,优化问题被广泛的用于科学研究与工程实践中。传统的优化方法计算量大、复杂程度高,难以求解复杂的优化问题,有时无法找到问题的全局最
流应用是从科学计算、多媒体等领域中抽象出的一类应用,并且还成为了微处理器上的主要负载形式。序列比对是生物信息学的基本操作之一,具有计算密集性、并行性和局域性等特点
SAR(Synthetic Aperture Radar)图像目标检测作为SAR自动目标识别ATR(Auto Target Recognition)系统的第一步,对ATR系统后续的目标鉴别、目标识别与目标分类等过程具有十分重
随着现代社会信息量的不断增大,不正确、不一致、不确定的劣质数据开始普遍存在于数据管理系统中,极大地降低了数据的质量,给社会带来了严重的损失。因此,迫切需要新的技术来处理
随着信息技术的发展,P2P技术作为一种新型的网络应用模式受到了广泛关注。传统的互联网使用集中式拓扑结构,存在单点失效、服务器瓶颈等缺陷,P2P网络的出现能够较好的解决这些问
目前各大医院重症监护室(ICU)的监护中存在着急性低血压(AHE)抢救及护理难题。AHE的发生不仅会影响治疗效果,并且严重威胁着患者的生命安全。近年来随着医疗监护技术和信号分
普适计算已经成为当今世界的一个研究热点,国内外学者在普适计算方面已经做了大量的研究工作。普适计算要求做到信息空间和物理空间的融合,用户可以随时透明地获得需要的服务。