高维数据中KNN分类算法的优化研究

来源 :广东工业大学 | 被引量 : 4次 | 上传用户:yangmx198808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘逐渐成为各类研究者争相研究的热门课题。其中KNN分类算法由于其简单、易于实现等特性已经被广泛应用于金融分析等各个领域。但是传统KNN算法需要当前待分类样本点与所有训练样本点做相似度计算,才能得出前K个最近邻点,从而得到待测点的类别。然而当数据量增大或数据维度较大时,算法将产生巨大的计算开销。另外,如果K值选择过大,最近邻点中可能会包含相似度较低的样本点,从而导致分类准确率降低及计算量增加等问题;如果K值选择过小,尚未分类样本点可能会缺失一些相似度较高的样本点,同样也会导致准确率较低的问题。针对上述问题,本文在训练点数量的削减及K值选择上做了以下研究:针对KNN算法中存在冗余计算的问题,本文提出了基于聚类的环形KNN算法(Clustering-based Annular K-Nearest Neighbor Algorithm,AKNN)。该算法主要由数据处理、更新训练点与簇心之间的距离、构建环形过滤器及KNN分类四个部分构成。在数据处理过程中,算法可以根据训练集的实际情况选择不同的聚类算法进行聚类,从而得到合适的簇心点。其中算法的核心是为每个测试点构建一个环形过滤器,进而通过过滤器将当前待测点周围的训练点分为外围训练点和内围训练点。当执行分类操作时,算法使用内围训练点代替原始的训练点,从而降低冗余的计算量。最后通过9组公开数据集对所提出的AKNN算法进行了实验验证。实验结果表明,本文提出的AKNN算法比LC-KNN和RC-KNN算法在准确率上平均提高3%,而在计算量上比KNN算法平均减少51%。针对K值固定的问题,本文提出了基于环形过滤器的K值自适应KNN算法(K-value Adaptive KNN Algorithm Based on Annular Filter,AAKNN)。该算法主要由数据处理、更新训练点与簇心之间的距离、构建环形过滤器、构建稀疏向量及KNN分类五个部分构成。其核心思想是利用稀疏向量能够较好的表达数据之间的相似度信息来动态选择每个测试点的K个最近邻点,从而提高算法的准确率。该算法不仅能够根据不同测试点的实际情况来选择不同的K值,而且利用环形过滤器避免了内存占用过大的问题。最后通过6组公开数据集对所提出的AAKNN算法进行了实验验证。实验结果表明,AAKNN与CM-KNN算法相比较于其余四种算法(KNN,AKNN,LC-KNN,及RC-KNN)在准确率上平均提高2%,其中AAKNN算法相比较CM-KNN算法可以平均减少79%的内存消耗。
其他文献
商业银行作为衡量金融经济发展水平的重要依据,其金融创新能力直接决定了我国经济的发展态势。近年来,互联网经济出现并迅速普及,我国传统的金融经济受到了巨大的冲击。商业
针对航天器内声场的控制,从装置的改进、声场控制方法和DAVA的应用三个方面阐述了DAVA在航天器中的研究进展,梳理总结了用于航天器内声场控制的DAVA智能装置研制中面临的多物
现阶段,班级授课制仍是学校实施教学工作的主要组织形式.教师通过课堂教学传授系统知识、培养大量人才,但是,教师在课堂教学时,常常不能兼全体学生的知识基础、认知能力和个
1960年前后,中国动画产量迅速提高,出现了一大批形式新颖、民族化特征明显、制作精良的作品,使中国动画跻身世界影坛,中国动画学派在世界动画艺术中占下一席之地。虽然这一时
王承芝,湖南省醴陵人,1962年出生在陶瓷艺术世家,其父亲王建国为醴陵著名艺术家,从小受艺术熏陶。1982年湖南省轻工技校美术专业毕业,同年进入湖南省醴陵群力瓷厂从事陶瓷设
城市森林游憩可分为两类,即日常性游憩与专题性游憩;提出要发展郊区城市森林以及建设郊野游憩带的概念,为城市居民提供更能亲近自然的游憩活动机备必须通过合理规划、建设与调整
<正>"另类平台"的第二场是主办方以《单身狗》(Lonely Dogs)为主题,将三位个性十足的独立艺术家的三支独舞《功》(Kudoku)、《倒立之树》(Inverted Tree)、《半月》(Half Moo
期刊
数字多媒体技术的发展为我们的工作和生活提供了很多成熟、可靠、灵活、高效、高质量、低成本的多媒体信息。随之衍生的各类图像处理技术使得数字产品的获取、处理、存储、复
以生物活性高的厌氧颗粒污泥为对象,研究了U(Ⅵ)初始浓度、pH值、颗粒污泥的投加量和SO42-浓度对颗粒污泥处理含U(Ⅵ)废水的效果。结果表明:当U(Ⅵ)初始浓度为9.6 mg/L,湿颗粒污泥
客户信用评估是银行等金融企业日常经营活动中的重要组成部分。一般违约样本在客户总体中只占少数,而能按时还款客户样本占多数,这就是客户信用评估中常见的类别不平衡问题。