论文部分内容阅读
在气象预报业务中,回归分析是一种普遍应用的统计分析与预测技术,而对多元线性回归模型中自变量的基本要求是不存在密切的线性关系。但在实际问题中,当涉及的自变量较多时,我们很难找到一组自变量,它们之间互不相关,这样就会引起多重共线性问题。这时,如果采用普通的最小二乘方法(Ordinary Least Squares,OLS)进行回归建模,变量间的多重共线性就会严重危害参数估计,破坏模型的稳定性。为解决多重共线性问题,气象预报建模研究中最常用的方法是采用岭回归和主成分回归分析方法。岭回归存在的主要问题是k值的选取大多是一些主观的方法,主成分回归在成分提取上并没有考虑因变量,这样得到的成分虽然对自变量系统有很强的合成作用,但对因变量却缺乏解释能力。再有一种方法就是偏最小二乘回归方法(Partial Least Squares,PLS),它是OLS的一种改进。本文尝试采用PLS方法对广西冬季月平均气温进行预测建模研究。论文以广西88站1959~2000年冬季(12月、1月、2月)3个月各月平均气温距平场作为预报量,以1958~2000年的500hPa、100hPa月平均高度场,以及北太洋月平均海表温度场作为预报因子,进行预报建模,并对2001-2005年5年独立样本进行预报试验。在建模过程中本文并不是直接针对某一个站点建立一个预报方程,而是采用EOF降维方法,提取广西全区88个站点每个月月平均气温距平场的前三个时间系数作为预报分量。在预报建模过程中发现,PLS一般提取3-5个主成分,就可包含75%以上的自变量变异信息和50%左右的因变量信息,不仅能较好地概括自变量系统信息,同时也能很好地解释因变量。论文以中国气象局下发的《短期气候预测质量评定暂行办法》对预报结果进行客观评分计算,其中12月、1月和2月的预报结果评分分别为75.8、84.7和72.6分,3个月平均得分为77.7分,预报效果比较令人满意。本文还在同样条件下用逐步回归方法进行预报建模对比试验,结果发现,直接采用逐步回归方法,对广西88个站冬季3个月预报评分为12月62.8分、1月73.6分、2月66.9分,3个月平均得分为68.8分。对比两种方法预报结果来看,PLS在预报评分、预报的稳定性及提取因子所包含的异常信息等方面均明显优于逐步回归方法。通过进一步深入分析认为,PLS方法作为一种新型的多元统计方法,它比逐步回归预报方法有更好的预报效果,主要是因为,在采用PLS方法作提取成分时,不但能很好的概括自变量系统中的信息,而且能更好的对因变量加以解释,并能消除变量间的多重共线性,从而能提高预报模型的预报精度。同时,在预报建模计算过程中,PLS方法能同时实现回归建模(多元线性回归分析)、数据结构简化(主成分分析)以及两组变量间的相关分析,是一种更为有效的预报建模方法。另外,PLS方法可以在样本数较少的情况下实现预报建模。因此,从本文的试验研究结果表明,采用PLS方法进行月平均气温预报建模是一种十分有效的回归分析方法,这为数据挖掘和信息提取提供了一种新的气象统计预报工具,该方法在短期气候预测业务工作中有较好的应用推广前景。