论文部分内容阅读
K近邻(K-Nearest Neighbor,KNN)分类是模式识别中一种经典的非参数统计方法,由于其简单、直观、有效等特点,被认为数据挖掘十大算法之一。然而近邻分类性能易受近邻参数选择敏感、简单最大投票分类决策原则等问题的影响,其分类性能有待进一步提高。近年来,近邻的局部均值和近邻表示应用于近邻分类,较好地提高了近邻识别性能。本文针对K近邻分类所存在的主要问题,基于近邻的局部均值和表示,研究了K近邻分类的若干新方法。主要研究内容如下:(1)为了克服对k个近邻点选择敏感,尤其是有噪声点存在的小样本情况下,将多局部均值与基于表示的距离结合,提出了基于局部均值表示的近邻分类(A Local Mean Representation-based K-Nearest Neighbor Classifie,LMRKNN)算法。LMRKNN使用的多局部均值可以使不同的近邻在不同的局部均值拥有不同的分类贡献。近邻的多局部均值不仅可以克服在小样本情况下对k值的敏感,还可以获得更多的几何和判别信息。基于多局部均值表示的距离不仅使多局部均值获得自适应的分类权重,还可以正确的反映测试样本与训练样本之间的相似性。在大量真实数据集以及人脸数据集上的实验证明了所提LMRKNN算法分类的有效性。(2)针对KNN分类算法中对k近邻点选择敏感,简单的最大投票原则问题,提出了基于局部约束表示的近邻分类,包括基于加权表示的K近邻分类(The Weighted Representation-Based K-Nearest Neighbor Rule,WRKNN)算法和基于加权均值表示的近邻分类(The Weighted Local Mean Representation-Based K-Nearest Neighbor Rule,WLMRKNN)算法。WRKNN考虑了每个近邻的局部信息作为权重来约束对应近邻的表示系数。WLMRKNN使用k个近邻计算的多局部均值的局部信息作为权重来约束对应多局部均值的表示系数。WRKNN和WLMRKNN使用基于表示的距离分别使得k个近邻和多局部均值获得自适应的权重,不仅可以很好的反映不同局部样本的分布,还可以进一步增强模式判别性。在真实数据集、时间序列集以及人脸数据集上的大量实验证明了所提WRKNN和WLMRKNN分类的有效性。(3)根据基于多局部均值的调和近邻分类(The Multi-Local Means-Based K-Harmonic Nearest Neighbor Rule,MLMKHNN)算法中的调和距离作为近邻分类决策思想,提出了基于局部均值表示的调和近邻分类(A Local Mean Representation-Based K-Harmonic Nearest Neighbor Classifier,LMRKHNN)算法。LMRKHNN首先通过基于近邻的多局部均值的线性表示获得每个局部均值的自适应权重,然后采用测试样本与表示的多局部均值的距离来设计新的调和距离分类决策。一方面,多局部均值可以较好地克服k个近邻点选择的敏感性;另一方面,基于表示的局部均值加权考虑了不同近邻样本的分布对近邻分类的贡献。在真实数据集以及图像数据集上的实验证明了所提LMRKHNN分类算法的有效性。(4)为了进一步验证所提相关近邻分类算法的实际应用中的有效性,设计了基于局部均值表示的近邻图像分类原型系统。在原型系统中,将所提近邻算法在不同的图像集上进行了对比验证,实验证明了本文所提算法的实用性。