论文部分内容阅读
数据分类技术是数据挖掘中一种强有力的分析手段,它旨在生成一个分类函数或分类模型,由该模型把数据库中的数据项映射到某一给定类别中。现有的数据分类算法大体可以划分为两大类:积极学习方法与消极学习方法。其中消极学习型中应用最广泛的是最近邻分类算法,因为它是用与人类思维方式相似的方法进行分析一即检测与新样本最接近的匹配样本的类别作为新样本的类别标识。因此对最近邻分类算法的研究是一个非常有意义的课题。
本文在详细分析了现阶段比较常用的分类算法以及各自的优劣之后,重点分析了K-最近邻(KNN)算法的基本思想,总结出了传统K.最近邻存在的优缺点,针对K-最近邻算法在数据分类中存在的主要问题—算法计算开销较大,本文提出一种改进的KNN算法—基于预聚类处理的K.最近邻分类算法,即首先采用神经网络方法对属性的权值进行确定,从而可以对分类所作的贡献不同的属性赋予不同的权值,来提高分类准确度。同时通过对训练数据集进行预处理,分析训练数据集的特征,对其进行聚类处理并建立分类模型。确定与待分类样本距离较近的代表数据集,从而大大减小了训练样本的数量,实现减少分类计算开销的目标。
最后,对本文提出的基于预聚类处理的K-最近邻分类算法,本文进行了详细而广泛的实验。实验结果表明,该算法能有效的提高分类速度,减少算法的计算运行时间,分类精确度较传统的K-最近邻分类算法有所提高,而且随着数据规模的增大,该算法的时间性能较传统的K-最近邻分类算法表现得更好。理论分析和实验表明,本文所提出基于预聚类处理的K-最近邻分类算法是正确的和有效的。