论文部分内容阅读
在农产品市场上,农产品的价格受生产成本、市场供给等因素的影响。而且在不同的季节,不同地区的农产品受到的影响程度也不一样。这就使得同一种农产品,在不同地区市场价格相差颇大,此时农产品的市场信息就凸显得尤为重要。对于普通农民、商贩等受农产品价格波动影响比较大的人群来说,获取及时而又有效的农产品市场信息就能及早的推断出价格的波动状况,及早的预防,并做出相应的决策,避免重大的损失。当然,如若获取途径和方式等相对闭塞,那么待价格波动时,我们便会措手不及,损失颇大。大数据技术能够借助Hadoop、MapReduce和Spark等分布式架构处理大量、非结构化的数据,寻求大数据存在的深层次的数据价值和数据关系,充分利用数据挖掘和分析的结果,帮助决策者做出理智、科学的决断。农产品市场上存在庞大的数据,通过大数据技术,能够获取农产品具有洞察力和新价值的东西,及早的发现市场规律,掌握市场行情。本文基于HP 360PGEN81U服务器硬件平台和其上部署的Hadoop、Hive和Spark分布式大数据软件平台,进行农产品价格数据的分析和预测。具体的工作如下:(1)搭建Hadoop、Hive和Spark大数据框架;(2)编写Python3程序爬取农惠网等权威农产品网站上关于农产品的省份、城市、名称、价格、价格单位、年、月、日、实时时间和种类等数据信息,并存入MYSQL;(3)把爬下的农产品信息从MYSQL中导出成文本文件,并上传到HDFS中;(4)在spark-sql上通过HQL编写程序将HDFS上的数据映射到spark-sql数据库中,并清洗出农产品在每个省份的数量,每个省份的数量占全国总数量的比例,每个省份每天价格的平均值、最大值和最小值,每个省份每个月价格的平均值、最大值和最小值等信息;(5)用Scala语言进行HoltWinters(三次指数平滑法)模型的改良,使其能多处理一个省份列,并借助改良的HoltWinters预测农产品未来一段时间的价格;(6)把spark-sql清洗出来的数据和改良的HoltWinters预测出来的数据导入MYS QL数据库中,借助SpringMVC、Ajax、Echarts等技术进行数据可视化;