论文部分内容阅读
数据挖掘,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。目前对于数据挖掘技术的研究越来越多,并且已在多个领域中应用,其应用范围涉及银行、电信、保险、交通等诸多领域。分类和预测是数据挖掘领域中两种重要的数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。本文将分类和预测等数据挖掘方法应用于农作物的产量预测,是对气象数据进行数据挖掘的应用和研究。预测农作物产量的变化对政策宏观调控和区域结构调整都有着十分重要的意义。为了更加有效的进行气象数据挖掘,本文引入了商空间粒度计算理论、灰色模型、构造性机器学习算法等。粒度计算理论是信息处理的一种新的概念和计算范式,覆盖了所有有关粒度的理论、方法、技术和工具的研究,现已成为人工智能领域研究的热点之一。目前国际上三大粒度计算模型为模糊集、粗糙集以及商空间理论。商空间理论模型是由张铃、张钹教授提出的,该理论使用粒度的观点分析描述世界,从不同粒度层次对事物进行分析使认识更加全面合理,而且可以降低问题的计算复杂性。例如启发式搜索、路径规划等问题的应用实例都反映了该理论框架的实际应用价值。灰色系统预测模型是通过时序数据累加生成的模块建立起来的,滤去原始序列中可能混入的随机量,从上下波动的时间序列中寻找某种隐含的规律性,得到随机性弱化而规律性强化了的新数列,挖掘出原始序列的内在特征。而构造性机器学习方法,其主要特点是对给定的具体的数据处理过程中,同时给出网络的结构和参数。即所得到的结构是在处理数据过程中逐步构造的,而不是在学习之前事先给定的。本文的主要工作:(1)概述了粒度计算理论的发展和基本模型,重点介绍了商空间粒度计算理论框架及构造性机器学习算法(覆盖算法)。(2)研究了气象数据挖掘(农作物产量预测)的几种主要模型的原理和实现,并且针对农作物产量预测的特点,由基本单产预测模型,农作物的产量可以分解为趋势产量和气象产量,趋势产量可以反映社会生产力因素对农作物产量的作用,而气象产量则是反映气象变化对农作物产量的影响,通过二者的结合能够更好的进行产量预测,提高预测的准确率,因此本文重点研究了针对趋势产量和气象产量的不同组合模型。(3)针对当前预测模型的不足,采用了一种新的气象数据挖掘组合模型,即首先采用张铃教授提出商空间粒度计算模型对气象数据(光、温、水等气象因子)进行分层次的多粒度分析,构造气象产量预测的商空间模型,利用商空间理论中的性质及定义,对分层后不同粒度的复杂气象特征时间序列进行集成,使气象数据的特征更为明确,以更好的进行机器学习。对于趋势产量的预测,文中采用的是灰色模型GM(1,1),而气象产量的预测则是构造性机器学习方法(覆盖算法),通过二者的结合能够取长补短提高作物的产量预测准确率。(4)通过对于安徽省五个具体地区的冬小麦产量预测试验,可以分析出基于商空间的组合模型具有更好的预测效果。本文研究的产量预测模型是气象数据挖掘的重要研究领域之一,同时也是数据挖掘中分类预测方法的一个典型应用,而且为商空间粒度计算理论在不同领域中的应用提供了新的参考。其基本思路和具体设计也可扩展到其他领域类似的应用中,具有较好的应用前景。