论文部分内容阅读
聚类分析是研究在没有训练样本集的情况下对样品进行分类的多元统计和数据分析方法。利用聚类分析方法对给定数据进行分类时,所采用的样品并不知道其所属类型,而根据样品间的“相似”程度来自动地进行分类。聚类分析的主要目的在于把给定数据集按照一定的规则适当地划分成一系列有意义的子集(或称类(clusters)),使得每个类中的数据之间尽量“相似”或(“接近”),而处在不同类的数据尽可能有“较大差异”。一个好的聚类结果,一方面可对给定的数据按其固有的性质所分成的各个类去把握其特征,从而达到浓缩原来数据规模的目的。另一方面可从结构相对复杂的原始数据集得到结构更加简单而直观的数据资料,以利于对给定问题作进一步讨论和研究。
一般地,对实际问题的讨论中事先对给定数据的结构及具体的聚类个数等信息掌握的不够充分(有时甚至是一无所知),确定客观而准确的聚类往往是一个非常复杂的问题。同时,很多动态聚类算法普遍存在聚类结果对初始分类依赖性大的问题,这导致算法有可能只收敛于局部最优解。该论文主要通过对一般模拟退火法(simulatedannealing)的分析和讨论,提出一个改进方案和相应的改进算法,并把其理论和方法应用到聚类分析中,提出一个基于“加速模拟退火法(acceleratedsimulatedannealing(ASA))”的动态聚类算法,以克服K-均值法等传统动态聚类法所存在的部分问题。并提出聚类数动态可调算法,为同步解决聚类与确定适当聚类个数的问题提供一些设想。最后通过仿真研究和实际问题的分析讨论,比较不同聚类法的分类效果和选择最优解的收敛速度等,并进而验证所提出聚类法的有效性。