基于不同距离公式的KNN算法对鸢尾花的分类

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:lmj1103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:传统的KNN算法采用欧氏距离公式,文章中的KNN算法分别采用欧式距离公式、切比雪夫距离公式、曼哈顿距离公式对鸢尾花数据集进行分类,在不同距离公式下,分类结果的准确率具有一定的区别,采用切比雪夫距离公式时,分类结果的准确率达到100%,对以后KNN算法的研究及应用具有重要意义。
  关键词:KNN;距离公式;分类
  0  引言
  数据挖掘分类技术方法众多,包括决策树、神经网络、模糊集、粗糙集、回归分析、差别分析等。数据挖掘分类技术应用越来越广泛,徐彧铧采用决策树对鸢尾花进行分类,对比分析了ID3算法、C4.5算法以及CART算法在鸢尾花分类任务上的可行性[1]。其中,神经网络技术迅速发展,应用到很多方面。比如,猪脸识别[2]、猪只饮食行为识别[3]、无人机的小目标实时监测[4]。
  本文采用基于不同距离计算方法的KNN算法对鸢尾花进行识别,KNN分类算法分别采用欧氏距离公式、切比雪夫距离公式、曼哈顿距离公式对鸢尾花进行分类。在不同距离公式下,得出的准确率、分类时间有一定的区别。其中,当KNN算法采用切比雪夫距离公式时,分类结果的准确率可以达到100%,对以后KNN算法的研究具有重要意义。
  1 数据准备与预处理
  Iris鸢尾花数据集是一个经典公开的数据集,数据集包含3类,共有150条记录,每个类别有50条记录。包含4个特征,分别为花萼长度、花萼宽度、花瓣长度、花瓣宽度。公开的数据中已经标明了每个特征对应的数值。
  对收集到的鸢尾花数据集进行归一化操作,可以提升模型的精度与收敛速度。Iris鸢尾花数据集包含150条记录,在150条记录中随机选择100条记录作为训练集,50条记录作为测试集。随机选取可以保证结果的普遍性。
  2  KNN算法
  2.1  KNN原理
  KNN又称K邻近分类算法,KNN算法是一种数据挖掘分类技术,属于有监督学习方法。将未知数据的特征与训练集中的每一个数据相对应的特征进行计算,采用距离公式进行相应特征间的计算,计算完毕,再选择出前K个距离最小的数据,计算出的距离代表未知数据的特征与训练集中每一个数据的特征的相似度,距离越小,说明相似度越大,未知数据是这个数据对应的类别的概率越大。在这K个数据中,记录每一个数据出现的次数,出现次数最多的数据对应的类别就是未知数据的类别。
  2.2 距离公式
  在以下公式中,d表示距离,xi表示未知数据的特征,yi表示训练集中的每一个数据相对应的特征。
  2.2.1 欧氏距离
  传统的KNN算法采用欧氏距离公式对未知数据的特征与训练集中的每一个数据相对应的特征进行计算。欧式距离计算公式为:
  2.2.2 切比雪夫距离
  切比雪夫距离是一种定义在向量空间上的度量方法,也被称为棋盘距离[5]。切比雪夫距离公式为:
  2.2.3 曼哈顿距离
  曼哈顿距离又称为租车距离,距离公式为:
  2.3  算法流程
  采用距离公式计算出未知数据的特征与训练集中的每一个数据相对应特征的大小之后,再选取前K个数据,其中K值的选取会影响到未知数据的分类结果。经实验发现,当选取K值为14时,得到的分类结果的准确率达到最高。选择出前K个数据,根据这K个数据中每个类别出现的次数来得出未知数据的类别。出现次数最多的类别就是未知数据的类别。算法流程如图1所示。
  3   实验过程
  根据KNN算法的原理,首先,将所有的数据进行归一化处理,可以得到一个高精度及收敛速度较快的模型。其次,打乱所有的数据,将所有的数据分为训练集和测试集,训练集和测试集要随机选取,保证结果具有普遍性。KNN算法分别以3种距离公式对测试集进行测试。最后,选取前K个数据,记录K个数据中每个类别出现的次数,出现次数最多的类别就是未知数据的类别。分类流程如图2所示。
  4 结果分析
  分别采用欧氏距离公式、切比雪夫距离公式、曼哈顿距离公式对随机选取的测试集进行测试,并记录下每种距离公式下的分类结果的准确率以及运行时间。采用欧式距离公式时,分类结果准确率为98%,运行时间为0.026 927秒;采用切比雪夫距离公式时,分类结果准确率为100%,运行时间为0.015 021秒;采用曼哈顿距离公式时,分类结果准确率为96%,运行时间为0.012 925秒。采用切比雪夫距离时准确率雖然能达到100%,但是,与采用曼哈顿距离时相比,运行时间要长。具体数据如表1所示。
  5   结语
  本文以基于不同距离公式的KNN算法对Iris鸢尾花数据集进行分类,分别以欧式距离公式、切比雪夫距离公式、曼哈顿距离公式来计算未知数据的特征与训练集中每一个数据相应的特征的相似度,选取出前14个数据,根据14个数据的类别对未知数据进行分类。当KNN算法采用切比雪夫距离公式时,分类结果的准确率达到100%,运行时间为            0.015 021秒,对以后KNN算法的研究具有重要意义。
  [参考文献]
  [1]徐彧铧.基于决策树的鸢尾花分类[J].电子制作,2018(20):99-100,84.
  [2]秦兴,宋各方.基于双线性卷积神经网络的猪脸识别算法[J].杭州电子科技大学学报(自然科学版),2019(2):12-17.
  [3]李菊霞,李艳文,牛帆,等.基于YOLOv4的猪只饮食行为检测[J/OL].农业机械学报:1-10[2021-03-03].http://kns.cnki.net/kcms/detail/11.1964.S.20210111.0938.010.html.
  [4]张伟,庄幸涛,王雪力,等.DS-YOLO:一种部署在无人机终端上的小目标实时检测算法[J/OL].南京邮电大学学报(自然科学版),2021(01):1-13[2021-03-03].https://doi.org/10.14132/j.cnki.1673-5439.2021.01.011.
  [5]毛鑫,蔡江辉,张素兰.一种基于加权切比雪夫距离的图像分割方法[J].太原科技大学学报,2020(6):449-455.
  (编辑 何 琳)
其他文献
人脸识别技术指基于人的脸部特征,对输入的人脸图像或视频流进行判断,依据脸的位置、大小和主要器官提取出人脸中所蕴含的身份特征,并与已知的人脸进行对比,从而识别人脸身份的一种技术,并且广泛应用于各领域。基于此背景,文章对几类常见人脸识别技术进行介绍,并对人脸识别的应用现状进行研究,探究当前人脸识别技术在各个领域的应用状况,同时对现状进行分析,提出未来人脸识别技术的发展趋势。
摘 要:随着教育信息化2.0时代的到来,现代信息技术在职业教育中的地位越发凸显,课程的数字资源以其丰富多样的形式和全方位的感官呈现在教学过程中, 为职业教育“三教”改革的落地生根提供了方法和手段。文章从学校及社会两个层面对当前职业教育数字资源建设情况进行调查和总结,进而对扬州地区职业学校数字资源与平台建设现状进行分析并提出建议,最后对如何开展职业教育数字资源建设提出了方法和策略。  关键词:职业教
摘 要:BIM是建筑业发展的必然趋势,基于教育信息化的发展,高职院校要依托校企合作打造满足BIM专业人才的教学体系。文章以建筑业BIM的发展作为切入点,结合教育信息化手段提出优化建筑专业BIM教学改革的对策。  关键词:建筑业;BIM;教育改革  0 引言  BIM是建筑行业中应用信息技术的具体体现,随着建筑信息化的发展,BIM将成为建筑业的必然发展趋势,因此作为培养实用型人才的高职院校必须要紧紧
摘 要:高等院校承担着为社会、企业培养及输送技术型人才的重任,且从现阶段的人才需求来看,企业更需要的是应用型人才。文章对电子信息类专业实践教学的现状和可应用的改革路径进行了深入探讨,针对现阶段改革过程中所存在的问题提出了相对应的解决方案,希望可以为未来的改革方式提供些许帮助。旨在培养出职业技能全面、具备相应的实践能力的高技术应用型人才,不仅有利于实践教学体系的完善,也为企业和社会的发展提供了人力资
利用深度展开的方法来设计深度神经网络在如今成为了一种经典的优化方法。文章提出了一种新的基于深度学习和压缩感知的重构算法用于序列信号重构。该模型设计理念是通过用近端梯度下降方法来对模型做迭代展开。在MNIST数据集上的实验表明,该模型表现要优于一些先进的基于压缩感知的模型以及其他基于循环神经网络的模型。
摘 要:SPOC能够对课堂教学进行辅助。因为学生的自控能力较差,所以课堂很难发挥出其主观性。基于此,文章对SPOC混合教学模式进行了分析,将SPOC教学模式同传统的课堂教学相融合,对大学的“计算机基础”课程进行了变革,而且还对这一教学模式实践进行了探讨,以期为有关人士提供参考。  关键词:计算机基础;SPOC混合教学模式;教学目标;教学内容  0 引言  SPOC混合教学模式可以更好地帮助学生了
CDIO理念注重培养学生的主动性和实践能力,组成这个词汇的4个字母分别代表着构思、设计、实现、运作,充分彰显了该教育理念的核心特点。在现代社会中,仅仅掌握理论知识已经无法满足岗位要求,专业人才需要具备实践、创新、应用等能力,要不断提升人才的综合水平。所以,教学的过程中,可以应用CDIO理念。文章主要对该理念在物联网专业实践教学体系中的应用进行了探讨和分析。
摘 要:文章针对当前大学课堂教学程中存在的主要问题,提出了在开展现实课堂教学的同时,利用互联网技术同步建立虚拟课堂,实现虚拟和现实两个课堂相互支撑、相互补充的虚拟/现实“双课堂”教学模式,同时分析了“双课堂”教学模式的主要特点,指出实施“双课堂”教学的关键因素。“双课堂”教学模式的实施:(1)充分发挥大学生的自我意识和表现意识、更能积极主动参与教学过程;(2)真正使教师由单一的“讲授者”角色转变为
摘 要:只有不断地探索与创新,计算机课程才能够培养出高素质实用型人才,才能将高职计算机专业的人才培养成社会所需要的人才。文章主要针对高职计算机专业应用型人才培养模式及其研究方式,结合教学实践中遇到的难题,探究计算机专业人才培养的模式,并且提出合理建议,希望能够为职业教师提供参考。  关键词:高职;计算机专业;应用型人才;培养模式  0 引言  计算机课程具有很强的专业性,它的应用性也十分的普遍广泛
摘 要:文章介绍了一种远程“真”实验管理平台,提出了一种多维度线上实验教学模式。该平台解决了电子技术实验时间和空间上的限制,弥补了虚拟仿真实验欠缺“真实感”的问题,提高了教师实验管理效率,同时为学员提供了更个性化的纠错辅导和更科学的实验效果评价。多维度的线上教学模式,灵活调整教学方法,更好地培养学员自主学习能力和提升学习兴趣。  關键词:电子技术;线上实验;实验管理  0 引言  电子技术类课