论文部分内容阅读
随着监测设备和观测手段的逐步提升,人类日常接收的气象数据呈几何式的增长,传统的存储技术已经无法满足海量数据的存储需求。海量数据蕴含着大量有用的信息,对气象数据进行挖掘对人类生产和生活有着举足轻的作用,因而将数据挖掘技术应用到气象领域显的尤为重要。Hadoop作为一种新兴技术,为海量数据的存储和处理提供了新的思路。其中,Hadoop平台下HDFS能够对海量信息进行存储,MapReduce编程模型则使得Hadoop拥有强大的计算能力,而Hive数据仓库能够实现对海量数据的管理,Mahout数据库为科研人员提供了大量的数据挖掘算法,并且运行在Hadoop之上,加快了数据挖掘算法的运行效率。因此,本文首先构建了基于Hive的气象数据仓库,实现了对气象数据的有效管理,创建了基于WebGIS的气象数据挖掘系统,并基于该系统对GSOD数据进行挖掘。本文的研究成果如下:(1)设计并建立一种基于Hive的气象数据仓库。对数据表分别以时间和国家两个字段进行二维分区,实现了对气象数据的降维,加速了数据仓库的查询效率。基于分区表的结构下,再以站点编号作为分桶字段进行分桶操作,减少了跨表查询过程中笛卡尔积的计算,缩短了跨表查询所用的时间。将气象数据组织成SEQUENCEFILE存储格式,改善了 Hive在处理大量小文件的不足。最后通过实验,验证了本气象数据仓库的优越性。(2)基于WebGIS框架,采用Hive和Mahout技术,创造性地将三个技术结合,建立了基于WebGIS的气象数据仓库。对数据挖掘接口、空间插值接口进行设计和实现,最终实现了整个系统的搭建;(3)基于WebGIS气象数据挖掘系统,对全球平均气温变化情况进行分析。研究对比了 1937-2016年前后40年气温的变化情况,并通过皮尔逊检验、M-K检验对全球、南北半球以及中国的年均气温时间序列进行分析。研究发现:后40年全球平均气温较前40年有所上升;全球、南北半球以及中国的年均气温序列表现出了相似的增长趋势;(4)本文提出了一种基于聚类结果的决策树分类模型。使用WebGIS气象数据挖掘系统对全球各站点积温和降水进行层次聚类分析,在结合决策树模型获取聚类集之间的分类规则,最后得到不同等级的水热组合情况。