论文部分内容阅读
聚类分析是一类很重要的统计分析方法,有着广泛的应用。本文针对如下两类情况进行聚类分析。
首先是利用相关矩阵来进行聚类分析,对于高维的数据,将数据表示成相关矩阵,然后通过相关矩阵的函数变换来进行聚类。通过对一类相关阵迭代的Concor方法的探讨,给出了该方法的相关性质及利用该方法的聚类方法,并结合Matlab编程,给出了在三、四、五阶Concor方法矩阵序列的收敛不动点。
其次,利用混合分布模型的方法进行聚类。在由多个指数分布组成的元件系统中,给出系统的分布函数将有助于对系统的寿命特征进行更精细的研究。本文利用EM算法给出参数的极大似然估计(MLE),以及Gibbs抽样法给出了混合指数分布的极大似然估计和最大后验估计。通过引进识别变量,对系统寿命数据进行分类识别。然而在实际工作中混合成分数k往往是不知道的,针对这一情况给出了混合成分k未知时的混合指数分布数据怎样进行分类的方法,其主要思想是利用了逆跳过程首先对k值进行模拟估计,然后再利用前面讲述的方法对参数进行估计和计算并对数据进行聚类判别。
最后在附录中给出了在基因组序列分析中常用的一些聚类分析的方法,从中不难发现对不同数据特征提出的聚类方法的新特点。