论文部分内容阅读
随着农业信息化的不断深入,农业数据与日俱增,众多农业相关网站积累了大量的农业数据,但是这些数据类型复杂、分散、获取难度大,无法发挥应有的作用。如何有效地获取、整合及挖掘多源农业统计数据成为目前急需研究解决的问题,特别是如何利用数据挖掘技术从海量的农业统计数据中挖掘出隐藏的农业知识,并结合可视化技术将数据和挖掘结果用简单易懂的图形符号展示出来,从而更好的为农业服务。本文针对农业统计数据分散广的特点和难以获取的问题,利用网络爬虫技术完成多源数据的采集,结合数据挖掘技术,实现影响因子筛选和结果预测挖掘模型的构建,并利用django Web框架设计并实现农业统计数据挖掘与可视化系统。本文主要研究内容如下:(1)通过对国内外农业数据挖掘的应用分析,确定研究内容和研究目标,并对农业统计数据的采集与处理进行了分析。利用网络爬虫技术,定向抓取网页的数据;抽取网页中的农业统计数据,进行清洗、补充、转换和集合,为数据挖掘提供有效的数据支持。(2)数据挖掘模型的设计。针对农业统计数据中存在的大量模糊不确定因素问题,设计了灰色关联和Lasso回归算法相结合的多因子筛选模型,解决最小二乘法方法带来的局部最优解问题,并消除因子间的共线问题;为验证多因子筛选模型的准确性,设计实现了 GM(1,1)灰色预测和BP神经网络结合的预测验证模型,提高模型的适应性和容错能力。(3)挖掘与可视化系统的实现。设计开发基于Django的Web农业统计数据挖掘与可视化系统,研究了数据挖掘流程、数据可视化技术和数据管理等技术,实现了数据管理、用户管理、数据挖掘和数据可视化模块,具体包括:利用Xadmin设计后台管理系统,实现数据管理和用户权限设置;利用数据挖掘技术和pyechart技术,实现数据挖掘结果的图表展示,增加用户体验效果;利用Echart可视化技术和Django自定义路由配置方法,结合词云关联实现农业统计数据的多图关联展示,并提供动态交互功能;利用gulp优化技术和debug-toolbar技术分别实现系统的前端和后端优化。(4)系统的应用与测试。利用河北粮食产量数据进行测试,对影响粮食产量的多因子关系分析,并通过可视化技术将多影响因子组合展示,最后通过预测模型进行验证,预测效果良好。本文以多源异构的农业统计数据为基础数据源,通过研究灰色关联、lasso回归、GM(1,1)预测和BP神经网络算法,设计了一个农业统计数据挖掘和可视化系统,挖掘农业数据中的潜在价值。