论文部分内容阅读
随着社会经济的不断发展与进步,各行各业的发展与需求对气象预测要求在不断提高。与传统的气象预测模式相比,获取气象数据的渠道日益丰富,气象数据资料呈现爆炸式增长,如何有效利用这些海量气象数据对于推进气象领域进步有决定性作用,气象数据具有的高维性和大规模特点,意味着传统的气象模式很难将各维度的气象数据以及各气象数据之间有效联系起来,而现今的数据挖掘技术较为成熟,为研究与探索气象领域中各个属性内在规律与联系、寻找天气变化有指导性意义。本论文针对气象中降水预测问题进行研究与分析,在掌握和分析现有最新气象数据挖掘技术的基础上,对现有的天气预测模型提出相应改进。摒弃单分类的气象预测模型,利用Adaboost算法集成强分类器达到提升性能的目的,通过详细研究气象样本数据特点,对气象数据挖掘建模,数据属性处理,并对集成预测模型进行深入研究,主要完成以下工作。(1)针对Adaboost算法集成分类器在气象降水预测中存在着学习性能退化而导致的精度不足问题,本文通过理论推导证明集成分类器的误差上界与学习过程中归一化因子的关系以及优化的本质思想,对Adaboost算法在样本的学习过程中权值的更新方式进行调整,提出基于归一化因子与依赖度的权值修正算法,改进后的算法目标是依据信赖度调整样本的权值的更新幅度,以此来缓解误差累积问题,从而达到提高性能的目的,实验表明,该种改进方式提高了预测的性能。(2)针对气象领域中的降水数据集总是存在着数据集分布不平衡问题,本文提出基于损失代价敏感的不平衡学习方式,通过改进Adaboost算法中每个样本根据不同的分类预测结果而产生不同的损失代价为核心思想,以最小化损失代价为目标函数,引入惩罚因子,通过理论证明与推导,调整基分类器学习过程中的权值更新方式,同时给出基分类器的误差阈值。通过实验表明,该种改进确实提高了对数据集中的少数类的学习能力,有效的提高了集成分类器的性能。通过降水实验以及评价方案的数据结果可知,本文提出的改进算法与传统数据挖掘算法相比,有较好的性能体现。该种预测模型增强了气象预测效率,且对气象数据总是具有良好的表现,为以后的气象数据挖掘提供了更好的解决方案借鉴。