论文部分内容阅读
近年来随着数据挖掘的研究及其应用的逐步深入,分类已成为数据挖掘一个重要的研究方向。分类作为一项具有较大的实用价值的关键技术,在公共管理,金融,商业和科学研究等领域获得了广泛的成功应用。随着数据量日趋海量化,海量数据的处理需要通过有效的分类方法提高数据分析能力,因此,研究有效的分类技术已成为数据挖掘领域中一项重要的课题。
本文主要研究工作,首先研究数据分类相关算法,分析了数据分类的若干关键技术和难点;然后,选择性能优秀的分类算法——kNN分类算法进行分析,分析了kNN的优缺点和当前的研究现状之后;最后,对kNN分类算法提出了改进方法。
为了克服kNN算法分类速度比较慢的缺点,从聚类方法出发,基于先对训练样本进行聚类,然后再对测试样本进行分类的思想,提出基于聚类树的kNN分类改进方法。该方法:首先,对训练样本进行聚类预处理,然后,基于聚类结果构造一棵聚类树。最后,基于聚类树,实施kNN分类。在分类过程中,根据这棵聚类树进行K个最近邻的查找,只需在满足一定条件内的部分样本中查找对未知样本的K个最近邻并对其进行分类,从而减小了查找范围,降低了相似度计算量。
最后,实验结果表明,新方法比传统的kNN方法具有更好的时间性能,在保持分类正确率不变的情况下,加快了kNN的分类速度提高。