增量支持向量机学习算法研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:swqsswqs19760308
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine, SVM)是一种基于统计学习理论的通用有效的机器学习方法,鉴于其坚实的理论基础和良好的泛化性能,已被广泛应用到很多领域。但是由于其本质上求解的是凸二次规划问题,需要进行大规模的矩阵运算,因此只适用于小规模数据。当数据规模较大时,矩阵的运算会非常繁琐,学习的效率也会变低。增量学习方法通过每次加入一个或者一批增量样本进行训练,将大规模问题分解成一系列子问题。本文采用增量学习技术,针对训练样本是否有标记,提出两种增量支持向量机(Incremental Support Vector Machine, ISVM)学习模型,以有效提高SVM处理大规模数据的性能。本文的研究工作主要包括以下两个方面:(1)针对有标记样本的增量学习过程进行研究。在该过程中,增量样本选择不当,可能会降低模型的学习能力和泛化性能。但目前选择增量样本的算法或者是随机选择,或者选择的方法过于复杂。针对该问题,本文提出了基于概率密度分布的PISVM模型。该模型通过使用概率密度分布选择含有较多重要分类信息(有可能成为支持向量)的增量样本,且当其预测值与真实值不一致时,才将其加入训练集进行训练,以加快模型的收敛的速度。在标准数据集UCI上的实验结果表明PISVM模型在保持其泛化能力的同时能进一步提高学习效率。(2)对部分有标记的组合半监督支持向量机学习问题进行研究。组合半监督支持向量机需要在无标记样本的所有标记组合中寻找最优的那组作为其最终的标记。而该方法存在一个较大的问题:计算复杂度过高。针对该问题,本文将增量学习方法引入其中,提出了基于增量学习方法的半监督支持向量机模型IS3VM。该模型通过将大量的无标记样本分批进行组合标记来降低算法的计算复杂度。每次选择位于分类间隔内部的样本进行标记,并将使分类间隔最大的那组标记作为其最终标记,以确保标记的准确性;然后将其加入训练集进行训练,以此来修正模型。从而在保证模型精度的同时,降低模型的计算复杂度。本文提出了两种模型PISVM和IS3VM,不仅对ISVM模型本身增量样本的选择方法进行了改进,提高了学习效率;同时扩展了ISVM在半监督学习领域的应用。本文的研究成果对SVM的应用研究具有一定的意义。
其他文献
<正>近日,教育部公布了《义务教育音乐课程标准(2011年版)》。新颁发的《义务教育音乐课程标准(2011年版)》(以下简称"新标准")是在总结近十年音乐课程改革的经验基础上,广泛
<正> 溅锥喷咀具有结构简单、易于制造、水质要求低、不易堵塞、清理方便等优点,因此广泛用在内喷文丘里管中。目前许多火电厂都采用冲灰水作为文丘里喷咀的水源,造成堵塞现
<正> 我厂1-7号汽轮机是我国早期的中温中压机组,容量有25MW、12MW及6MW。与这些机组配套的蒸汽抽气器运行年限已久,工作状况恶化,抽气器铜管老化,泄漏严重,大量闷堵,喷嘴吹
本文系统阐述了马克思生态思想的实践唯物主义基础、社会批判基础及其价值指向,认为马克思的生态思想建立在对人和自然本质的科学理解以及在生产实践基础上对人与自然关系的
目前许多学者认为《西游记》与《吴承恩诗文集》不是出于吴承恩一人之手,本文以《吴承恩诗文集》中的《赠张乐一》一诗为证,考查了《赠张乐一》与明代心学思潮在反对主体放纵
从诸多方面看,最近几年中国环境社会学取得了快速发展,但是目前环境社会学的重大不足是理论基础非常薄弱,需要高度重视理论自觉问题。环境社会学者应积极拓展传统社会学的视
<正>在偏头疼的患者群中有70%都是女性,怎么样有效缓解偏头疼病,以下六种方法,您不妨一试。冰袋冷敷:将冰块放在冰袋里或用毛巾包好,敷在头疼部位。等冷却的头部血管收缩后,
功耗问题制约着射频识别(RFID)系统的应用领域,论文依据射频识别系统特点和工作原理,在读写器端将硬件结构级和软件级功耗优化相结合,在完成射频识别、存储器管理、时钟控制
中小企业在国民经济中的作用日益凸显,而融资难成为制约中小企业发展的瓶颈,其主要原因是中小企业信用风险高。建立中小企业社会信用体系,完善中小企业担保体系和加快发展中
社会工作职业资格标准的颁布对于中国社会工作教育的发展是一个十分有利的契机,但制约社会工作教育发展的根本性因素是中国社会工作发展的现实状况。在社会工作职业化开始的