基于稀疏表示和决策树的最近邻方法研究

来源 :广西师范大学 | 被引量 : 2次 | 上传用户:fenghuirong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是数据挖掘领域中最基本和最重要的问题之一,在计算机视觉、自然语言处理、生物特征识别和医学诊断等领域都有着广泛的应用。最近邻算法是一种常见的分类算法:给定一个测试样本,找出与它相似的训练样本进行比较来学习。k-最近邻方法(kNN)在训练样本集中找出最接近测试样本的k个邻居,然后根据它们分类。kNN作为一种经典的分类算法,是数据挖掘领域应用最广泛的分类算法之一,广泛应用于人脸识别、手写字符识别等各个领域。但kNN也有其不足的地方,对于kNN的改进一直是学者们研究的热点,其中kNN中k值的确定是一个公开性问题,本文重点研究了kNN中k值的选取问题,主要工作如下:1)kNN使用固定k值对于所有的测试样本都使用同样数目的训练样本来进行分类、预测等,这在实际情况中是不合理的。本文将稀疏表示引进kNN算法,提出CM-kNN算法,通过重构技术尝试性解决k值固定问题,即对于不同的测试样本,应该在训练样本空间中使用不同数目的训练样本对其进行分类,这样才更加符合实际情况。2)和经典kNN算法相比,CM-kNN准确率提升了很多,不过当样本数据量很大时,重构过程耗费时间过长。为此,本文引入决策树技术,提出kTree算法,通过建立决策树来避免重构这一过程,从而大大提高分类速度,同时可以保持和CM-kNN接近的分类准确率。3)在k Tree算法基础上,将决策树叶子结点附近的k个邻近样本及其最近邻样本考虑在内,提出k*Tree算法,在这个小范围内进行kNN分类,从而获得进一步的计算速度提升,同时也能保证和CM-kNN接近的准确率。
其他文献
目前,复杂网络理论已经渗透到多个学科领域,并在计算机网络控制、交通控制、社会网络分析、生物网络等领域取得了一系列成果。正是由于复杂网络理论应用广泛,来自数理学科、生命
学位
随着互联网的广泛应用,用户所能接触的信息呈爆发式增长,通过大数据分析用户行为模式、预测趋势的研究开始流行起来。而此时,推荐系统的出现,通过主动给用户推荐其可能感兴趣
组播是一种将数据源发出的信息同时发送到多个接收者的有效通信方式,传统IP组播的主要功能在路由器上实现,通过合并重复信息传输来减少带宽浪费和降低服务器的负担。由于IP组播
卫星网络作为一种重要的通信手段,以其特有的全球覆盖能力、不受地面自然灾害的影响以及良好的移动性等特点被应用于数据传输业务和实时多媒体业务的各个方面。LEO卫星由于延
由于移动设备和无线网络的特点,使无线认证协议的执行环境更为复杂,从而使其更容易存在安全缺陷,同时也为其形式化分析带来了新的挑战。本文研究的主要内容是采用模型检测技
汉字识别是用计算机自动辨识印刷在纸上或人写在纸上的汉字,它属于模式识别和人工智能的范畴。汉字识别涉及到模式识别、图像处理、人工智能、形式语言与自动机、模糊数学、
互联网的规模随着计算机技术和网络技术的发展而不断扩大,基于互联网的应用也得到了快速的发展。P2P技术以其良好的可扩展性和稳定性受到普遍的关注。基于P2P技术的网络应用
网络化制造使企业能够充分利用制造资源,企业间的资源能够得到共享,企业间的优势得到互补,从而提高了企业的生产效率、减少了生产的成本,对于提高整个产业链和制造群体的竞争
随着IT技术的不断进步,计算机系统在国民经济和人们的日常生活中扮演着越来越重要的角色,同时也产生了越来越多的数据。据wintercorp公司调查,世界上最大的数据库的规模每两
每个人生活在社会中,都会与他人产生交互和联系,建立某种社会关系,进而形成社会关系网络。特别是在互联网飞速发展的今天,Facebook、Twitter、人人网等社交网站出现,人们可以将线