论文部分内容阅读
近年来,随着气象自动观测站在全国范围广泛建立,气象观测数据的数据量呈指数级增长。气象观测数据质量的好坏直接影响到天气预报以及气候预测的准确性。传统质控算法利用历史资料的气候学界限值及要素允许值进行检查,对要素异常变化缺乏灵敏性,已不能满足质量控制工作的需要。数据挖掘方法是近年来出现的比较火热的大数据分析方法,在气象中的应用逐渐丰富,比如应用于天气预报以及气候预测,但是在气象观测数据质量控制方面却少有相关研究。本文详细介绍了一种基于数据挖掘的气象数据质量控制方案。从同一观测要素在不同时间观测值之间的相关性(时间相关),以及同一观测时间内不同观测要素之间的相关性(要素相关)两方面出发,结合数据挖掘中的相关算法,提出了两种不同的气象观测数据质量控制方法,并结合两种方法之间的互补性和关联性,建立一套综合质控方案。本文的核心内容包括三点。(1)根据各气象观测要素随时间变化具有混沌性(潜在趋势性和规律性)的特点,提出了一种时间相关的气象观测数据质量控制方法。首先分析各要素的观测序列在每小时级观测尺度下的混沌特性,接着根据相空间重构理论对气象要素观测序列进行相空间重构。由于重构后的气象要素数据序列具有高维非线性的特点,结合SVM算法的优点,利用内积核函数将复杂的非线性问题映射到高维空间变成线性问题,建立一种基于支持向量机的混沌气象要素时间序列预估模型。针对模型中核函数的选取,使用混合核函数,并采取改进的粒子群算法对模型中的参数进行自适应的学习和确定,提高模型对气象要素的预估精度。根据实际观测值与估计值的差异,评估实际观测值中的异常数据。实验证明本文提出的方法对异常气象观测数据的质控灵敏度较高,适用于检测出气象观测数据的异常值。(2)由大气物理的变化机理和专业的气象知识,可以确认某些气象要素之间存在相关性,根据不同要素之间彼此相关的特点,提出了一种要素相关的气象观测数据质量控制方法。该方法利用BP神经网络强大的非线性映射功能,以某一要素相关的其他要素作为输入,该要素作为输出,建立起基于多要素的BP神经网络气象观测数据预估模型。采用灰色关联分析法对输入要素进行筛选,去除输入要素中具有强耦合性的要素,剩余要素再与输出要素进行关联度分析,除去关联度较小的要素,通过合理的筛选输入要素,从而提高模型的预估精度。根据实际观测值与估计值的差异,评估实际观测值中的异常数据。实验证明本文提出的方法对异常数据的质控灵敏度相对较高。(3)根据两种方法之间的互补性和关联性,建立综合质控方案,实现最终的综合判定。选取华东地区某站点从2009年到2013年的每小时数据集作为质控对象,实验结果表明本文提出的方案能够有效地对气象观测数据进行缺测值拟合及异常值检测。本文提出了基于数据挖掘的气象观测数据质控方案,将数据挖掘算法引入气象观测数据质控中,丰富了气象质控手段。其检出的异常数据可以为相关专家进行人工评判提供依据和支持。传统质控方法的质控范围较宽,已不能满足现阶段的质控需要,本文研究的气象数据质控方案为寻找气象数据质控新方法提供了一些思路和有益的尝试。