论文部分内容阅读
众所周知,聚类分析在许多领域中都有着广泛和深入的应用,对人们的决策与研究也有着非常重要的指导意义。K-means聚类算法是聚类分析中的一种基本的划分式方法,由于算法思想通俗易懂,运算效率高,是最受欢迎的聚类方法之一,因此K-means聚类算法的应用与改进得到了广泛的关注。AFS邻域是AFS理论中描述个体或对象在集合中的“位置”的特征量,其优点可以处理多种类型的数据。本文尝试将AFS邻域概念应用于K-means聚类算法之中,并达到处理多种数据类型的目的。本文首先从K-means聚类算法和AFS邻域相关知识的介绍入手,在此基础之上提出了基于AFS邻域的全局聚类算法,该算法一方面在全局K-means聚类算法的基础上进行了改进,给出了一种新的寻找下一个初始类簇中心的选取方法;另一方面,利用AFS理论的相关知识,对数据集属性进行了约简,之后利用AFS拓扑和邻域产生了数据集中各个对象间的相对距离,并将相对距离应用于初始类簇中心的确定和类簇中心更新中,进而得到最终的聚类结果。最后,本文分别对机器学习数据库中的Iris, Wine等七组数值型数据、非数值型数据Balloon数据以及随机生成的含有噪音点的人工数据集进行了聚类实验。实验证明,该算法具有更好的聚类效果、多数据类型的处理能力以及同样具有对噪声的抗干扰性,达到了实验目的。同时,为了真正体现理论应用于实际,本文利用Matlab GUI技术,将聚类算法开发成了一个在Windows下运行的应用程序,然后将Iris数据作为测试用例,为该算法的在实际中的应用提供了参考。