基于聚类树的KNN分类算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:lazysheep85
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着数据挖掘的研究及其应用的逐步深入,分类已成为数据挖掘一个重要的研究方向。分类作为一项具有较大的实用价值的关键技术,在公共管理,金融,商业和科学研究等领域获得了广泛的成功应用。随着数据量日趋海量化,海量数据的处理需要通过有效的分类方法提高数据分析能力,因此,研究有效的分类技术已成为数据挖掘领域中一项重要的课题。 本文主要研究工作,首先研究数据分类相关算法,分析了数据分类的若干关键技术和难点;然后,选择性能优秀的分类算法——kNN分类算法进行分析,分析了kNN的优缺点和当前的研究现状之后;最后,对kNN分类算法提出了改进方法。 为了克服kNN算法分类速度比较慢的缺点,从聚类方法出发,基于先对训练样本进行聚类,然后再对测试样本进行分类的思想,提出基于聚类树的kNN分类改进方法。该方法:首先,对训练样本进行聚类预处理,然后,基于聚类结果构造一棵聚类树。最后,基于聚类树,实施kNN分类。在分类过程中,根据这棵聚类树进行K个最近邻的查找,只需在满足一定条件内的部分样本中查找对未知样本的K个最近邻并对其进行分类,从而减小了查找范围,降低了相似度计算量。 最后,实验结果表明,新方法比传统的kNN方法具有更好的时间性能,在保持分类正确率不变的情况下,加快了kNN的分类速度提高。
其他文献
在本研究工作中,我们根据电子政务研究建没的实际需求,研发了多项实用技术以及原型系统,有些原型系统还得到了实际的应刚,获得了较好的实际效果。总的来说,主要的研究工作在于以下
Maze拥有超过7,000,000的注册用户,他们的体验是对Maze系统最有价值的评价。围绕可量化的“资源获取”体验,我们将“资源获取”划分为三个阶段:“资源发现”,“资源定位”和“资
工业以太网以其良好的兼容性和互操作性逐渐成为构建工业网络的主流技术。然而传统以太网不确定性的先天不足使得以太网的应用仅仅停留在网络的信息层和管理层,尽管交换式以
个人计算机的普及曾经带动了全球的信息化的发展。但是个人计算机更新换代频繁,利用率低等缺点,使得基于个人计算机的信息系统总体拥有成本很高。目前国际上的研究热点是利用网
随着互联网的不断发展,出现了大量的P2P网络应用,为互联网用户的提供了非常大的便利,得到了人们的广泛认同。MazeP2P文件共享系统便是其中的一个。它为中国教育网中数十万的用户
由Mandelbrot创建的分形理论现在被广泛地应用于各种领域。利用分形可以解释自然界中不稳定的、非线性的、不规则的复杂现象的内在规律,可以研究无标度特性的物体和集合的自相
近年来互联网金融产业蓬勃发展,伴随而来的是规模巨大的互联网金融数据,这些数据蕴含着巨大的价值,有行业热点追踪预测、行业监管等重要应用。在对互联网金融数据进行数据挖掘、
党的十八大作出“建设海洋强国”的重大部署,“走向海洋”被提升到国家战略高度。随着定位设备准确性的提高,以及通信设备覆盖面及传输量的扩展,不论是企业、政府还是国防单位,都
With emergence of Service Oriented Architecture (SOA) as the main technology forenterprise application development and integration, there is a need of servicede
现实世界是一个变化的世界.不同的时间下,世界呈现不同的状态.在任何领域,变化是一个永恒的主题。如何在计算机中表示动态变化的过程是一个复杂并且值得深入研究的问题.本文主