论文部分内容阅读
聚类分析是探索数据重要特征的一种有效的无监督数据挖掘方法,通过无监督方法自动识别对象空间中的稠密和稀疏区域的过程。在当今大数据时代的背景下,聚类分析已成为数据挖掘和机器学习领域的研究热点之一。k-均值聚类算法是聚类分析中基于划分的经典算法,具有良好的简捷性和较强的适应性,可以对多种数据类型进行聚类分析。同时,由于其具有可伸缩性的特点,也可用来对大数据集进行有效处理。因此,对k-均值聚类算法的改进工作至今仍是聚类算法研究领域的一个热点。该算法主要的问题在于聚类数目无法确定,这直接影响聚类的效果。此外,聚类结果过度依赖初始中心点的设置,不同的初始中心点对于聚类结果的稳定性影响很大。本文针对k-均值算法的这些缺点作了一定的改进。首先,本文介绍了聚类分析的基本背景,简单分析了当前聚类分析的发展及算法现状,指出优秀的聚类方法应具备的条件,并列举了聚类分析的典型算法。其次,本文就聚类分析的经典k-均值算法做了较全面的介绍,包括算法的实现,算法的优缺点等。通过与当前流行聚类方法的比较,指出了k-均值算法关于最佳聚类数确定的明显不足,进而提出了改进k-均值算法,能较好确定最佳聚类簇数,使k-均值聚类算法的适用性和有效性有一定程度的提高。接着,针对于k-均值算法关于初始中心点选取的另一不足,进行了改进工作。分析了较流行的几种改进方法,但发现其都采用了随机选取的方法,实质上还是无法避免聚类效果不稳定的情况。本文提出了与之不同的改进方案,基于数据的特征进行初始中心点选取,经过实验,所选取的初始中心点能有效减少聚类算法的迭代次数,提高聚类算法的效率,同时聚类迭代次数以及聚类结果具有较好的稳定性。最后,针对k-均值算法的差异度量原理,提出了基于权重值改进的聚类方法。区别对待不同维度的数据,实现了不同维度的属性对于聚类结果不同的影响程度,实验结果表明,聚类的准确率有所改善。同时,改进工作结合了最佳聚类簇数确定及初始中心点优化的方法,使算法从类簇数目的确定到最终获得聚类结果的“自动化”,提高了实用性。由于聚类过程重用了确定类簇数目时的数据,有利于保持k-均值算法的高效性。通过对标准数据集进行实验,证实了改进的算法提高了聚类结果的准确率,并且表现出了较理想的稳定性。该算法的新意在于数据处理方面,通过指标分析,确定了最佳聚类簇数和初始中心点,同时通过权重值的调整,区分了不同维度属性的重要性,避免了相似度的简单度量。通过实验数据可看出,只需一次聚类过程就可得到较优的聚类结果。