论文部分内容阅读
随着信息技术的发展,各行各业产生大量数据。数据的涌现带来了新型技术的革新,人类已经从互联网时代进入到了大数据时代。农业是我国的第一产业,随着农业基础设施的不断完善,传感技术、物联网技术、遥感技术等各种技术的不断发展,为农业资源、农业生产、农业市场和农业管理等各个环节带来了大量数据。如何有效地利用这些海量数据,从中发现有价值的信息以便更好地服务农业,成为农业信息化技术发展的前沿课题。我国农业涉及领域多样,农业结构复杂,影响因素多样。农业大数据具有存储介质多样、结构复杂、维度高、时效性强以及难于分析的特点。本文结合现阶段成熟的大数据技术,选取Hadoop的分布式文件系统HDFS解决海量异构农业大数据的存储问题,并选取基于内存的Spark计算框架,实现农业大数据的实时快速处理。此外农业海量数据中蕴含着丰富的信息,挖掘这些信息对指导农业发展具有重要的意义。聚类方法是数据挖掘中的一种常用方法,本文选取聚类算法中性能较高的谱聚类算法对农业大数据进行数据挖掘,提取隐藏在农业数据中的知识,发现规律,为农业提供决策支持并为涉农人员提供指导建议。本文对农业大数据需求进行详细分析,设计了基于Spark的海量农业信息存储和分析的农业大数据挖掘系统。该系统采用了三层架构体系,底层为数据层,主要负责数据的采集、分布式存储等功能,数据层之上为业务层,提供计算框架以及逻辑处理功能,系统中的各类集成挖掘算法也由业务层实现。最顶层为交互层,实现系统与用户之间的交互。本文根据设计方案实现了基于Spark的农业大数据挖掘系统,系统实现了农业大数据的存储、计算、分析与挖掘等功能。系统搭建了 HDFS分布式文件系统,并搭建Spark并行计算集群。通过Spark生态系统的相关组件实现系统各个模块的功能。利用Spark SQL组件实现农业数据的查询和操作,利用GraphX组件实现并行化的谱聚类算法从而对农业数据进行聚类挖掘分析。最后对系统进行测试,选取中国土壤数据库提供的土壤肥力数据进行分析。结果验证了谱聚类算法对农业数据聚类分析具有重要的现实意义,而且农业大数据系统分布式的存储框架和并行化的计算对数据挖掘算法性能有极大的提高。所以本文基于大数据技术所设计与开发的农业大数据挖掘系统对推动农业信息化发展有着重要的现实意义。