论文部分内容阅读
随着信息化进程的不断推进,气象观测数据的采集量和采集的气象要素都在不断增加。由于气象观测数据采集过程中没有明确的目的性,而气象现象的变化往往只与采集的部分气象要素有关,因此采集的气象数据中属性冗余度大。冗余属性不仅降低了气象观测数据的挖掘效率,也降低了数据的挖掘精度。因此,对采集的气象观测数据进行属性约简具有非常重要的意义。本文针对气象观测数据的特点,研究基于遗传算法的气象观测数据属性约简算法:(1)本文首先介绍了粗糙集理论的基本知识,概述了粗糙集理论中的知识分类、信息系统以及属性约简等相关知识。分析了属性约简结合其他优化算法的必要性,同时对遗传算法的相关知识进行阐述,为进一步研究气象观测数据属性约简提供准备。(2)针对气象观测数据冗余属性多以及数据相关性较强的特点,提出一种区间值信息系统。并结合自适应遗传算法,提出一种基于遗传算法的区间值属性约简算法(Attribute Reduction Algorithm of Interval-valued Information System based on Genetic Algorithm,ARIGA)。气象观测数据作为一种典型的时间序列数据,一定时间范围内数据相关性较强,如果将气象观测数据离散为单值数据,容易造成造成数据间相关性减弱,导致部分知识的遗漏。算法通过引入区间值相似度,避免了数据离散化造成的知识遗漏,同时满足对单值数据和区间值数据进行等价类的划分。通过实验验证了 ARIGA对气象观测数据属性约简的性能。(3)针对遗传算法早熟收敛和收敛速度慢等问题,提出一种基于精英策略的协同进化自适应属性约简算法(Co-evolutionary Adaptive Attribute Reduction Algorithm based on Elite Strategy,CAARES)。从进化种群中选择适应度值最大的前M个相异个体组成精英池,个体交叉进行操作时,从精英池中随机选择一个精英个体完成交叉操作,借助精英个体引导种群快速进化,提高收敛速度。通过改进遗传算子和引入随机种群,改善种群多样性。实验表明,CAARES算法有效维持了进化过程中种群的多样性,保证了收敛效率。