基于Spark的农业大数据挖掘系统的设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:dvrgbedr544y4d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,各行各业产生大量数据。数据的涌现带来了新型技术的革新,人类已经从互联网时代进入到了大数据时代。农业是我国的第一产业,随着农业基础设施的不断完善,传感技术、物联网技术、遥感技术等各种技术的不断发展,为农业资源、农业生产、农业市场和农业管理等各个环节带来了大量数据。如何有效地利用这些海量数据,从中发现有价值的信息以便更好地服务农业,成为农业信息化技术发展的前沿课题。我国农业涉及领域多样,农业结构复杂,影响因素多样。农业大数据具有存储介质多样、结构复杂、维度高、时效性强以及难于分析的特点。本文结合现阶段成熟的大数据技术,选取Hadoop的分布式文件系统HDFS解决海量异构农业大数据的存储问题,并选取基于内存的Spark计算框架,实现农业大数据的实时快速处理。此外农业海量数据中蕴含着丰富的信息,挖掘这些信息对指导农业发展具有重要的意义。聚类方法是数据挖掘中的一种常用方法,本文选取聚类算法中性能较高的谱聚类算法对农业大数据进行数据挖掘,提取隐藏在农业数据中的知识,发现规律,为农业提供决策支持并为涉农人员提供指导建议。本文对农业大数据需求进行详细分析,设计了基于Spark的海量农业信息存储和分析的农业大数据挖掘系统。该系统采用了三层架构体系,底层为数据层,主要负责数据的采集、分布式存储等功能,数据层之上为业务层,提供计算框架以及逻辑处理功能,系统中的各类集成挖掘算法也由业务层实现。最顶层为交互层,实现系统与用户之间的交互。本文根据设计方案实现了基于Spark的农业大数据挖掘系统,系统实现了农业大数据的存储、计算、分析与挖掘等功能。系统搭建了 HDFS分布式文件系统,并搭建Spark并行计算集群。通过Spark生态系统的相关组件实现系统各个模块的功能。利用Spark SQL组件实现农业数据的查询和操作,利用GraphX组件实现并行化的谱聚类算法从而对农业数据进行聚类挖掘分析。最后对系统进行测试,选取中国土壤数据库提供的土壤肥力数据进行分析。结果验证了谱聚类算法对农业数据聚类分析具有重要的现实意义,而且农业大数据系统分布式的存储框架和并行化的计算对数据挖掘算法性能有极大的提高。所以本文基于大数据技术所设计与开发的农业大数据挖掘系统对推动农业信息化发展有着重要的现实意义。
其他文献
老一辈历史地理学家谭其骧、侯仁之、史念海、陈桥驿、曾昭璇、文焕然、何业恒、邹逸麟等学者合力完成《中国历史地图集》、《中国自然地理.历史自然地理》(1)二部里程碑性质的
在城市地铁浅埋暗挖法隧道开挖过程中,通过不同断面尺寸时,采用合适的工法转换至关重要。本文针对某车站暗挖区间双侧壁导坑法转中洞法施工过程特点,详细介绍了变断面里程段
本文主要研究了四次Hamilton系统存在幂零中心的条件.通过Melnikov方法,证明了一类特殊四次Hamilton系统.x=y+2bxy+εP(x,y),y=-x3-by2-x4+εQ(x,y)存在三个极限环,其中Px+Qy=∑osi+js
文章从LED的特性分析入手,结合医院建筑中的应用实践,阐述了LED平板灯具的使用特点,为在医院室内照明领域的应用起到抛砖引玉的作用。
作为一种科学学科,初中化学基于生活化理念开展教学,能有效提升学生的学习兴趣,使其逐步掌握学习化学的技巧,在增长其知识的同时,发展其学科能力。基于此,在实际教学中,教师
DSW-2B型2 kW短波广播发射机是跳频短波2 kW固态宽带发射机。DSW-2B型2 kW短波广播发射机把从频综组合送来的0~+21 dBm(带白噪声调频的或音频调幅的)射频信号放大到2 kW(CW),
依托某地铁车站站暗挖扩建工程,基于FLAC3D软件建立三维数值分析模型,探讨了浅埋暗挖隧道施工、上覆建筑桩基托换施工、基坑开挖及扩建车站主体施工对该车站结构物、地层的影
利用常规地面和高空观测资料、地基GPS/MET水汽资料、NCEP再分析资料以及多普勒天气雷达和双偏振雷达资料,对2018年1月3—4日和24—28日先后发生在安徽的两次暴雪过程(以下简
本文在构建区域经济差异衡量指标体系的基础上,结合2014年海南省经济统计数据,以SPSS为工具,采用因子分析法,对海南省18个市县的经济情况进行综合评价,探索区域经济发展中的