论文部分内容阅读
数据挖掘(Data Mining)是当前国际上数据库技术和信息决策最前沿的研究领域之一,从多个学科汲取营养。聚类分析是数据挖掘里一个重要的研究方向,对其进行深入研究在理论基础和实际应用上都有重要价值。聚类分析方法已经经过了几十年的发展,期间研究人员都在尝试用不同的方法来处理聚类问题。在众多提出的方法里,最小生成树聚类算法是其中一种典型的方法。但是,现有的该类方法仍旧存在不足,这就要求对已有的聚类分析技术进行改进,提出一种新的聚类理论和方法。本文通过研究分析,首先在Prim和Kruskal最小生成树算法的基础上,构造一种新的最小生成树算法QMST(Quick Minimum Spanning Tree),该方法巧妙地将数据集分成上界、下界和临时数据集三部分,大幅度地降低所需处理的数据规模,能够快速地构造出最小生成树,所需时间优于Prim和Kruskal。同时,在处理高维数据集时,依据属性差异度原理,引入降维策略,使得QMST在构造高维数据集的最小生成树时依旧保持快速的特性。接下来,通过分析现有的最小生成树聚类算法,结合基于划分和基于密度的聚类思想,提出一种基于最小生成树的快速自适应聚类分析方法QSAK-MST(Quick Self-adaptive K-means–Minimum SpanningTree),该方法通过QMST快速地构造出数据集的最小生成树,同时不依赖参数选取,即事先无需进行参数设定,而是比较簇的紧凑度大小,使用分裂准则对生成树进行迭代分裂,自适应地产生初始聚类中心和初始簇,接着使用K-均值的核心思想,根据前阶段产生的初始聚类中心和初始簇,采用最小化平方误差函数,根据簇中对象的均值,将每个对象分配到最相似的簇,更新簇均值,重复这个过程,直到函数收敛或者达到设定的迭代次数上限。通过这一局部调整的过程,能够有效地缓解在分割最小生成树以及对高维数据进行降维处理所带来的误差,从而进一步地提高聚类结果的精度。QSAK-MST解决了事先需要设置参数的难题以及大幅度地降低了构造最小生成树需要耗费的时间,不仅提高了聚类速度而且改善了聚类准确度。同时,通过引入一种降维策略,使得该方法在处理高维数据时依旧保持高效性,并且尽可能地控制降维所带来的聚类误差,使得聚类准确率保持在一个可接受的范围内。最后,通过多个真实数据集将本方法和两种基于最小生成树的典型方法进行对比分析,实验结果表明该算法在聚类速度、聚类稳定度和聚类准确度方面具有更好的优越性,验证了算法的有效性。