论文部分内容阅读
【摘要】 由于CMB模型在大气源解析中的广泛应用,如何在计算中避免所选样本间的相似性显得越来越重要。作为一种常用数据挖掘方法,聚类分析很好的解决了这一问题。Q型因子聚类法是一种常用的聚类分析方法,利用Q型因子聚类法对长春大气颗粒物源解析样本分析的结果表明,Q型因子聚类法在源解析工作中具有实际意义,但也存在一定的问题。最后,对Q型因子聚类法在源解析中的应用进行了展望。
【关键词】 CMB模型 数据挖掘 Q型聚类
化学质量模型(CMB)是大气源解析中被广泛应用的一种常用方法之一。由于CMB模型要求参与计算的各种源之间具有非共线性。因此在CMB模型计算之前,需先解决源的共线性问题。
聚类分析是统计学中常用的一种数据挖掘方法。所谓聚类分析,就是将一群物理或抽象的对象,根据他们之间的相似程度,分为若干组,使得同一个组内的数据对象具有较高的相似度,而不同组之间的数据是不相似的。在化学质量模型的计算中,可依据聚类分析结果避免共线性源代入模型计算。现有文献中存在大量的聚类方法,Macqueen首先提出了k-means方法,在数据挖掘领域得到了广泛应用[1];kaufman和Rousseeuw提出凝聚方法AGNES(Agglomerative NESting)和分裂方法DIANA(Dlvisive ANAlysis)[2],聚类过程更加简单,但聚类结果质量低下;Wang(1997,1999)等提出的STING(Statistical INformation Grid)[3]和STRING+[4]是基于网格和密度的方法,该法效率高,而且网格结构有利于并行处理和增量更新,但其降低了聚类的质量和精确性。常用的聚类方法主要有以下几种,R型聚类分析[5,6],Q型聚类分析[7,8],对应聚类分析[9,10],模糊聚类分析[11],多元聚类分析[12]。本文主要探讨Q型因子聚类法在源解析中的应用。
1. 方法与原理
Q型因子分析本质上是一种以样本间相似系数大小为分类依据的样本聚类方法。要对一个n个样品和p个变量构成的n*p阶初始数据矩阵进行Q型因子分析。首先要将初始数据矩阵进行标准化处理。
【关键词】 CMB模型 数据挖掘 Q型聚类
化学质量模型(CMB)是大气源解析中被广泛应用的一种常用方法之一。由于CMB模型要求参与计算的各种源之间具有非共线性。因此在CMB模型计算之前,需先解决源的共线性问题。
聚类分析是统计学中常用的一种数据挖掘方法。所谓聚类分析,就是将一群物理或抽象的对象,根据他们之间的相似程度,分为若干组,使得同一个组内的数据对象具有较高的相似度,而不同组之间的数据是不相似的。在化学质量模型的计算中,可依据聚类分析结果避免共线性源代入模型计算。现有文献中存在大量的聚类方法,Macqueen首先提出了k-means方法,在数据挖掘领域得到了广泛应用[1];kaufman和Rousseeuw提出凝聚方法AGNES(Agglomerative NESting)和分裂方法DIANA(Dlvisive ANAlysis)[2],聚类过程更加简单,但聚类结果质量低下;Wang(1997,1999)等提出的STING(Statistical INformation Grid)[3]和STRING+[4]是基于网格和密度的方法,该法效率高,而且网格结构有利于并行处理和增量更新,但其降低了聚类的质量和精确性。常用的聚类方法主要有以下几种,R型聚类分析[5,6],Q型聚类分析[7,8],对应聚类分析[9,10],模糊聚类分析[11],多元聚类分析[12]。本文主要探讨Q型因子聚类法在源解析中的应用。
1. 方法与原理
Q型因子分析本质上是一种以样本间相似系数大小为分类依据的样本聚类方法。要对一个n个样品和p个变量构成的n*p阶初始数据矩阵进行Q型因子分析。首先要将初始数据矩阵进行标准化处理。