论文部分内容阅读
随着计算机技术和信息技术发展,使得图像识别系统的开发成为可能。开发识别系统要解决的核心问题之一就是分类方法。识别分类方法主要包括:遗传算法、神经网络、最大熵、支持向量机和K-近邻方法等。K-近邻方法相比其它识别分类方法有着原理简单、易于实现等优点。因此,对K-近邻方法研究具有重要的理论与实践意义。本文在分析K-近邻方法不足的基础上,主要围绕K-近邻方法及其改进开展一系列研究。具体工作如下:首先,针对K-近邻方法在分类时易受到离群点影响的不足,提出了一种新的方法,即基于局部均值与类均值的质心近邻分类算法(CNNCM),该方法利用有效的质心近邻选取原则(NCN),从每类训练样本集中选择测试样本点的K个近邻点,同时充分利用K个近邻点的局部均值和类均值来判断测试样本点的类别归属。CNNCM不仅具有基于局部均值的非参数分类方法(LM)对离群点问题的稳健性和NCN原则对近邻选择的有效性,而且还充分地利用类均值对分类的作用。为了验证本文提出的算法在分类问题中的优越性,以分类精度作为评价标准,在5组真实UCI数据集上进行了CNNCM与KNN、KNCN和LM算法的对比实验,实验结果表明,CNNCM的分类性能明显优于其它方法。其次,针对K-近邻分类方法在分类时给不同的近邻样本赋予相同的分类贡献率和易受到离群点影响的不足,本文提出基于局部权重的K-近质心近邻方法(LWKNCN)。LWKNCN利用NCN原则从每类选择K个近质心,并根据质心点距离的远近给不同的质心点赋予不同的权重。在6组真实的UCI数据集和人造数据集上进行大量的实验,实验结果表明,与KNN和KNCN算法相比,本文提出的算法在分类时更加有效可靠,在分类性能上明显优于KNN和KNCN算法。最后,本文运用CNNCM和LWKNCN对棉花和杂草图像进行分类。具体步骤如下,第一,利用加权平均值法和中值滤波法对图像灰度化和滤除噪声处理;第二,采用最大类间方差法对图像进行分割;第三,选取5种边缘检测算子对图像进行检测;第四,提取10个特征,主要包括:S分量的1阶矩、2阶矩和3阶矩的3个特征,能量、对比度和相关性3个特征,长宽比、圆形度、矩形度以及球状性4个特征。采用CNNCM和LWKNCN方法对杂草数据集进行识别和分类。实验结果表明,CNNCM和LWKNCN对杂草分类具有较高的分类精度。