基于预聚类的K-最近邻分类算法的研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:sweetacid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类技术是数据挖掘中一种强有力的分析手段,它旨在生成一个分类函数或分类模型,由该模型把数据库中的数据项映射到某一给定类别中。现有的数据分类算法大体可以划分为两大类:积极学习方法与消极学习方法。其中消极学习型中应用最广泛的是最近邻分类算法,因为它是用与人类思维方式相似的方法进行分析一即检测与新样本最接近的匹配样本的类别作为新样本的类别标识。因此对最近邻分类算法的研究是一个非常有意义的课题。 本文在详细分析了现阶段比较常用的分类算法以及各自的优劣之后,重点分析了K-最近邻(KNN)算法的基本思想,总结出了传统K.最近邻存在的优缺点,针对K-最近邻算法在数据分类中存在的主要问题—算法计算开销较大,本文提出一种改进的KNN算法—基于预聚类处理的K.最近邻分类算法,即首先采用神经网络方法对属性的权值进行确定,从而可以对分类所作的贡献不同的属性赋予不同的权值,来提高分类准确度。同时通过对训练数据集进行预处理,分析训练数据集的特征,对其进行聚类处理并建立分类模型。确定与待分类样本距离较近的代表数据集,从而大大减小了训练样本的数量,实现减少分类计算开销的目标。 最后,对本文提出的基于预聚类处理的K-最近邻分类算法,本文进行了详细而广泛的实验。实验结果表明,该算法能有效的提高分类速度,减少算法的计算运行时间,分类精确度较传统的K-最近邻分类算法有所提高,而且随着数据规模的增大,该算法的时间性能较传统的K-最近邻分类算法表现得更好。理论分析和实验表明,本文所提出基于预聚类处理的K-最近邻分类算法是正确的和有效的。
其他文献
城市居民地制图综合是专题要素制图综合研究的一种特例,综合的实现不仅需要遵循地理数据综合规则,以解决因表达空间缩小而造成的地物要素间的冲突;另外,城市居民地的空间分布规律
文件可信性是文件共享系统可用性的重要性能指标之一,抵御污染文件(不可信文件)的传播是保证文件共享系统高可用性的关键,但是对等网络的去中心化特点导致基于对等网络的文件共
随着软件过程技术的不断成熟,软件过程在软件开发中扮演着越来越重要的角色。软件过程已经成为开发高质量软件所必须的活动框架,软件过程的评估、控制和改进对软件产品的质量起
专有名词的自动识别(ProperNounDetection)对自然语言处理领域的“信息提取”,“机器翻泽”,“自动问答系统”,“自动摘要”等系统影响较大。目前存在各类专有名词(简称专名)识
房地产业是国民经济的重要组成部分。改革开放以来,随着我国经济建设的飞速发展和老百姓生活水平的提高,以及国家住房制度的商品化改革,我国房产行业在近些年内呈高速发展趋势。
AJAX是当前Web客户端技术研究的热点,通过Java Script与DHTML提供一种异步编程模型,从而提高网页的交互和响应能力,为用户带来更好的人机体验。JSF是SUN新的Web应用开发框架,提供
当今科学研究呈纵横两方向发展,纵向各学科分支越来越细,越来越深入;横向各学科联系越来越紧密,把某个领域成熟的思想进入到另一领域往往能产生较好的科研成果,模拟生物系统进行科
网络通信技术发展到今天,有着辉煌的成就,它的发展使人们沟通便利,交际自由,是现代化一个重要标志。即时通信软件是人们上网交际的常用工具,使用即时通信工具能够实现与好友即时,快
软件演化是一个程序不断调节以满足新的软件需求的过程,即是对一个已有的软件系统进行不断修改、补充和完善,以适应新的需求和环境变化的过程。软件演化已成为如今软件工程领域
软件演化已成为软件生存周期中最重要的形态之一,进入了软件的各个领域,成为了今天软件工程研究的热点领域。软件演化的过程表现出了明显不同于传统软件过程的特征。因此,有必要