【摘 要】
:
最近邻K(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一,由于其实现的简单性,在很多领域得到了广泛的应用。但是,当样本容量较大以及特征属性较多时,
论文部分内容阅读
最近邻K(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一,由于其实现的简单性,在很多领域得到了广泛的应用。但是,当样本容量较大以及特征属性较多时,KNN算法分类的效率就将大大降低。本文提出了一种改进的KNN算法,并将其与传统的KNN算法进行了比较。此算法不是直接预测响应变量的值,而是缩小响应变量发生的最大可能性的范围,然后插值以给出输出。在预处理步骤中对数据进行分层划分,运行时搜索响应具有发生最大可能性的分区。它采用单个参数k,与传统KNN算法相同,并且超过了目前实验研究所示的各种数据集上的常规技术方法。本文提出了一种新颖,高效和具有离群抗性的基于聚类的KNN回归算法,CLUEKR算法首先找到查询点,而不是直接在整个数据集中搜索最近数据,然后找到在哪个集群。此算法首先在预处理步骤中对数据进行分层聚类,然后执行从层次结构的根节点开始的递归搜索,在层次结构的当前搜索节点中,子节点之间选择一个簇,然后应用递归搜索。最后,找到该簇中的查询点的k个最近邻,并返回其响应变量的加权平均值。本文还提出了使CLUEKR算法能够应用于分类任务的修改。另外本文提出了基于类的加权K最近邻算法,根据其实例,在常规K-最近邻分类器的查询实例邻域中的分类,将权重分配给每个类。该算法考虑了查询实例附近的类分布,确保所分配的权重不会对异常值产生不利的影响。对几种现实世界数据集中所提出的方法进行彻底的实验研究证实,仿真证明研究的方法比目前最先进的方法更好。最后,本文将基于类的加权K-最近邻算法与CLUEKR算法相结合,并提出了一种考虑到数据性质的高效准确的基于KNN的分类器。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。
Please download to view, this article does not support online access to view profile.
椭圆型偏微分方程及其反问题的研究具有重要的理论意义和实用价值,它广泛应用于地球物理学、心脏病学、无损探伤和离子物理学还有生物电场问题等领域,如医学成像中 CT机的发
子流形理论是微分几何的一个主要分支,子流形几何的一个主要研究内容之一是Pinching问题.子流形几何的Pinching问题在欧氏空间,球面,局部对称空间,拟常曲率空间等都有研究.本文主
近年来,广西南宁市健康服务业发展较快,养老服务业多元化发展,医养结合特色化发展,养生旅游产业品牌化发展,药品与医疗器械服务业平稳发展。但存在公众对健康服务业的认知度
倒向随机微分方程是由Peng和Pardoux在1990[1]年给出了一般形式,并证明了其解的存在唯一性,倒向随机微分方程才在理论以及应用方面取得了迅速发展.倒向随机微分方程的一般形式
Toeplitz算子理论与函数论、微分方程、Von Neumann代数、非交换几何、随机矩阵、信息与控制论和量子力学等都有密切的联系。研究Toeplitz算子和Toeplitz代数对推动数学科学
Banach空间中的凸理论有重要性质,这些性质加速着Banach几何理论的发展.到目前为止,Banach空间中的凸性研究已相对完善,但一些已知的凸性的推广还不是很完善.本文以论文[10,3
图像融合是图像处理中的一个重要分支,在遥感图像,医学图像,数码图像的处理方面有着广泛应用。多聚焦图像融合能够将图像中的清晰区域提取出来,融合成为包含全部场景,并且都
群签名方案中属于群的用户能够代表该群对消息进行匿名地签名。群签名的参与者是由群管理员和群成员构成的,其中,群签名是匿名的,一旦发生争议,群管理员就可以打开签名,从而