论文部分内容阅读
支持向量机(SVM)是基于统计学习理论提出的一种有监督的机器学习算法。其使用结构风险最小化原则,在解决小样本问题中具有诸多优势。支持向量机借助于核函数能够有效解决非线性可分和维数灾难问题。但支持向量机的全局化思想并不蕴含一致性且不能够有效处理非凸数据集。通过引入局部学习算法提出的局部支持向量机能够充分利用样本的局部信息,并且满足算法的一致性要求。本文主要对局部支持向量机(SVM-KNN)进行研究,针对局部支持向量机在分类中存在的问题提出了几种改进思路。论文的主要研究工作如下:(1)提出了一种基于聚类的快速局部支持向量机算法,该算法相比于局部支持向量机算法具有较高的分类精度和效率。针对局部支持向量机分类效率较低的问题,改进局部支持向量机选取待分类样本k个近邻样本的效率,提出了快速局部支持向量机算法(FKNN-SVM)。为验证FKN N-SVM算法对分类效率的影响,本文使用FKNN-SVM、SVM-KNN和SVM三种算法在玉米图像上进行对比实验。实验结果表明FKNN-SVM算法在分类效率上优于SV M-KNN算法。为进一步提高FKNN-SVM算法的分类效率和精度,将聚类算法与FKNN-SVM算法进行结合,提出了基于聚类的快速局部支持向量机算法(CFKNN-SVM)。使用UCI数据集和树皮图像数据集进行验证,结果表明CFKNN-SVM算法的分类精度和效率优于FKNN-SVM和SVM-KNN算法。(2)提出了一种适用于不平衡数据的局部支持向量机算法,该算法能够提高正类样本的分类精度。不平衡数据存在于入侵检测、医疗检测等领域。在不平衡数据集的分类问题中,数据量少的正类往往具有更重要的价值。本文通过在局部支持向量机的基础上引入聚类算法,提出了适用于不平衡数据的局部支持向量机算法(CLSVM)。该算法在尽量保持原始样本信息的前提下,借助于聚类算法解决待分类样本k个近邻样本的同态不平衡问题,从而提高正类样本的分类准确率。使用UCI数据集进行仿真实验,结果表明,CLSVM算法能够提高正类样本的分类准确率。(3)提出了一种基于邻域核函数的局部支持向量机,该算法能够直接利用非结构化图像数据构建分类模型。图像分类一直是机器学习研究的热点,而局部支持向量机无法直接利用图像等非结构化信息进行分类。本文将邻域核函数引入到局部支持向量机中,提出了基于邻域核函数的局部支持向量机(Neighborhood-LSVM)。Neighborhood-LSVM算法能够直接利用图像像素点的邻域变化信息构建分类模型。本文在树皮图像数据集上进行分类实验验证,实验结果表明Neighborhood-LSVM算法在图像分类上的准确率高于SVMKNN和SVM。