论文部分内容阅读
K-Means算法和L2-SVM算法分别是聚类和分类中研究较热的算法。传统K-Means算法以欧氏距离为度量准则,忽略了样本各属性在聚类过程中发挥的不同作用。同样的,L2-SVM算法寻找决策超平面时,以欧氏距离作为最大间隔的距离度量,忽视了样本集的空间内在结构特征。其次,L2-SVM算法中的参数较多,模式选择增加了算法的计算量。所以本论文就这几个问题进行了相关研究,所研究内容主要有以下几点:1、针对传统K-Means算法的距离度量存在的弊端,我们借鉴了LPP算法原理,首先构造一个局部保持散度矩阵,然后改进马氏距离中的协方差矩阵构建新的马氏距离,最后提出了基于局部保持的K-Means算法,并分析了算法的可行性和时间复杂度。与传统K-Means算法相比,本论文改进的算法考虑了数据内在结构和流形特征,有利于提高算法聚类效果。2、针对L2-SVM优化问题中的距离间隔,我们引入LPP算法原理,定义了类内局部保持散度矩阵,然后构造了一种新的间隔距离度量,最后提出类内局部保持的L2-SVM分类算法。相对于传统的SVM,我们改进的算法充分考虑了每一类样本的内在流形结构特征。并且,该方法考虑了数据的类标,属于监督方法,而LPP属于无监督方法,没有考虑数据的类别信息。实验结果显示,相对于传统的SVM和KNN分类算法,本论文提出的算法具有更高的识别精度。3、RM界中最小包含球半径R的计算需要求解二次规划问题,增加了算法的计算量。针对此问题,我们首先用所有训练样本的最大距离D逼近半径R,其次用D替换R构成新的RM界,然后基于改进的RM界对L2-SVM进行模式选择,并用梯度下降法调节最优参数,最后通过仿真实验,讨论了算法的分类精度和计算效率,得出结论。实验结果表明,相对于基于RM界的模式选择方法,文中算法的分类精度没有受到影响,但计算效率至少提高了一倍。