论文部分内容阅读
聚类分析又称集群分析,是将随机现象归类的统计学方法,已广泛应用于医学科学研究之中,在流行病学方法学研究中占有重要地位。聚类分析足根据某些样品(或变量)的若干特征,即根据样品或变量本身的“性质”加以分类的统计方法,在总体类别划分不清楚的情况下,可以用聚类的方法对样品(或变量)进行归类。系统聚类是将相似样品或变量归类的最常用方法,聚类过程为:①开始将每个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵;②将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间的相似系数;③重复第二步,直至全部样品(或变量)被合并为一类;④最后根据聚类过程画出聚类图。由此可见,系统聚类是在整个矩阵中寻找合适的统计量,每合并一类必须重新计算统计量,画出新的矩阵表,并且在根据聚类过程画聚类图时,需要反复、细致地安排样品(或变量)在横坐标的位置才能完成。整个聚类过程非常繁琐、不易理解。本文对空间边距式聚类分析的思想作了初步探讨,该方法只需要一张矩阵表,而且一次性做出聚类图。