论文部分内容阅读
支持向量机(Support Vector Machine, SVM)是一种基于统计学习理论的通用有效的机器学习方法,鉴于其坚实的理论基础和良好的泛化性能,已被广泛应用到很多领域。但是由于其本质上求解的是凸二次规划问题,需要进行大规模的矩阵运算,因此只适用于小规模数据。当数据规模较大时,矩阵的运算会非常繁琐,学习的效率也会变低。增量学习方法通过每次加入一个或者一批增量样本进行训练,将大规模问题分解成一系列子问题。本文采用增量学习技术,针对训练样本是否有标记,提出两种增量支持向量机(Incremental Support Vector Machine, ISVM)学习模型,以有效提高SVM处理大规模数据的性能。本文的研究工作主要包括以下两个方面:(1)针对有标记样本的增量学习过程进行研究。在该过程中,增量样本选择不当,可能会降低模型的学习能力和泛化性能。但目前选择增量样本的算法或者是随机选择,或者选择的方法过于复杂。针对该问题,本文提出了基于概率密度分布的PISVM模型。该模型通过使用概率密度分布选择含有较多重要分类信息(有可能成为支持向量)的增量样本,且当其预测值与真实值不一致时,才将其加入训练集进行训练,以加快模型的收敛的速度。在标准数据集UCI上的实验结果表明PISVM模型在保持其泛化能力的同时能进一步提高学习效率。(2)对部分有标记的组合半监督支持向量机学习问题进行研究。组合半监督支持向量机需要在无标记样本的所有标记组合中寻找最优的那组作为其最终的标记。而该方法存在一个较大的问题:计算复杂度过高。针对该问题,本文将增量学习方法引入其中,提出了基于增量学习方法的半监督支持向量机模型IS3VM。该模型通过将大量的无标记样本分批进行组合标记来降低算法的计算复杂度。每次选择位于分类间隔内部的样本进行标记,并将使分类间隔最大的那组标记作为其最终标记,以确保标记的准确性;然后将其加入训练集进行训练,以此来修正模型。从而在保证模型精度的同时,降低模型的计算复杂度。本文提出了两种模型PISVM和IS3VM,不仅对ISVM模型本身增量样本的选择方法进行了改进,提高了学习效率;同时扩展了ISVM在半监督学习领域的应用。本文的研究成果对SVM的应用研究具有一定的意义。