论文部分内容阅读
卫星云图全面、及时、动态的反映各类云系的特点及变化过程,成为气象、水利部门在防洪抗旱决策过程中不可或缺的重要参考依据。多年的云图接收积累了数量巨大的卫星云图,依靠人工判读方式根本无法满足时效性要求,尽管一些人工智能的方法能自动完成数据分析,但这类方法只能按照设定的规则执行,不能主动发现隐含在数据内部的知识。图像挖掘技术作为数据挖掘领域研究的前沿,提供了从大量图像中获取隐含的、有价值的、可理解知识的理论及方法。本文以图像挖掘技术理论与方法为指导,设计了面向云图集和云图—雨量混合数据集的三类挖掘任务,所获得知识将对云图智能化理解和基于卫星云图的降水预测等研究具有重要价值。论文的研究工作及贡献包括以下方面:(1)在卫星云图预处理方法研究中,提出了新的非线性自适应噪声滤除算法。该算法与常用的中值滤波技术相比,它能有效的消除椒盐噪声,保护云图中非噪声点不受影响,确保像素信息能够真实反映云内状态。云图中存在经纬线、地名等标注对象,它们会影响云图特征参数的提取。针对标注对象的形状特点,提出一种基于整体变分技术的标注对象剔除算法,通过引入权值改进了整体变分的离散化过程。结果表明算法有效剔除标注对象的同时保护了邻域信息。(2)在云图感兴趣区域提取研究中,提出了基于云图直方图的加权聚类算法,利用该算法实现典型云区的提取。为了更加符合云图数据样本在特征空间的分布特点,重点研究了对聚类算法的改进策略:1)针对类别个数自适应确定方法的改进,提出利用遗传算法结合评价指标曲线找出最优类别数,提高算法自动化水平。2)针对相似性测度的改进,提出基于链式距离的相似性测度,克服了欧式距离测度对数据分布的敏感性问题。3)针对聚类机制的改进,引入半监督思想,既能克服单纯聚类的盲目性问题,又能避免分类面临的训练样本问题。以直方图替代云图像素作为聚类对象,大幅减少了算法处理时间。(3)在云类智能识别的研究中,本文针对特征提取、特征选择、分类模型三个问题提出了对应的算法及模型。针对云区的无规则特性,提出了“基圆模型描述法”用于云区的描述,在此基础上提取云的形态特征参数,克服了以往算法只能提取颜色、纹理等特征的不足。为避免过拟合问题,本文采用特征曲线分析方法,从特征候选集中确定分类模型的输入特征集。本文提出将“IPSO—BP网络模型”作为分类模型。该模型采用改进的粒子群优化算法替代后向学习算法作为BP神经网络模型的学习算法,在一定程度上克服了收敛速度慢,易陷入局部极小值,过分依赖初始值的选择等不足。为了在原有分类模型框架下更好的利用多特征信息,本文提出了基于多特征融合的组合分类模型,将特征子集分别送入子分类模型后作出本地决策,采用投票表决法将多个本地决策融合后获得最终的结果。结果表明多特征融合分类模型在分类精度上优于单一分类模型。(4)在基于云图—雨量混合数据集的关联规则挖掘研究中,本文以云图灰度和云顶亮温间的关系为基础,设计了四种与降雨关系密切的云状态参数。通过时空同步处理,云图参数和雨量数据构成统一的混合数据集。为实现数值属性的转换,本文提出一种基于聚类的数值属性分区方法,它克服了“等深度区间划分法”对数据倾斜敏感的问题。为了提高对大规模云图—雨量混合数据集的处理效率,本文提出了基于数据分割的两阶段关联规则挖掘算法,它通过将原始数据库划分为多个独立的区间,由每个子区间的局部频繁项集产生全局候选项集,并设计了专门用于支持度计算的数据结构tidlists ,这些策略有效的减少了算法对数据库的扫描次数,大幅提高了算法的效率。结果表明当支持度阈值处于较低水平时,本文算法的执行效率显著优于Apriori算法的执行效率。