论文部分内容阅读
摘 要 现如今,大数据行业十分火爆,几乎涵盖各行各业,但目前关于农业的大数据处理的探究仍较少。基于此,探究利用高性能计算系统来处理农业大数据,使其对于推动传统农业转型升级,助力农业产业发展具有十分必要的现实意义和实用价值。
关键词 农业;大数据;高性能计算系统
中图分类号:S-1 文献标志码:A DOI:10.19415/j.cnki.1673-890x.2017.26.061
中国的农业面临着资源短缺、污染加剧、大规模生产和小规模生产对接困难、国内生产和国际市场失配问题,迫切需要信息技术促进创新发展,加快农业现代化建设。农业本身就是高度复杂的生态系统,既是产生原始数据的源头,也是利用数据进行处理分析、价值发现的重要领域。大数据的发展只有与农业深度融合,才能发挥出其对农业的利益最大化[1]。本文主要探讨了农业大数据在面临大规模的数据处理时可以利用高性能计算系统来处理,从而有效提高数据处理的精确度与复杂度。结合农业方面的特征,对农业大数据进行整合,分析农业大数据处理流程,运用高性能计算系统来设计农业数据的总体框架、标准体系,以及农业大数据未来发展的展望等。
1 农业大数据的现实含义
1.1 农业大数据的现状
随着移动互联网时代的到来,信息的透明度一直在不断增加,社会媒体和信息传播将进一步发展,这个时代充满了许多可能。国家农业部1号文件强调了国家对农业的支持,使国家经济高速增长,凭借资本的力量,迅速占领农业市场份额的大数据,定为未来做足准备。但就中国目前农业现状来说,其生产效率还较低,提升的空间较大,而农业大数据的应用正好应对当前困难。
就国外农业情况而言,如美国的规模化农场的作物分布稳定、面积大,且分工明确,具备完整的产业链;荷兰的现代温室植物工厂,农业精细化管理有着“温室王国”之稱;以色列的节水农业;地方保护下的日本农业以及资本与人力交汇的东南亚种植园等。随着物联网技术的发展,国外的农业种植大部分是机械产生的,自动化和程序化也很明显。在大数据时代,农产品种植过程、运输过程数据可视化已成为趋势。
1.2 农业大数据含义与前景
数据是看不见、摸不着的,它没有一个实物的形式存在。农业大数据是基于发展农业生产力时采集到的无数个小数据,进行分析、归纳、整合,从而形成的农业大数据。其对农业的生产和发展的作用相当明显,它可以追溯到作物播种时种子需要的环境,生长时化肥需用量和农药等其他研究开发与种植过程的数据;农产品加工、产品营销、产品物流、农业金融等数据都属于农业数据的范围,其贯穿整个产业链,规模庞大且复杂。农业是具有时间属性和空间属性的产业,因此需要在不同的时间点与农业领域考虑各种原因。基于已有的农业大数据现状,目前其研究可集中于大数据技术在农业生产的精细化,在农业经营管理中大型数据关联分析的方法、模型与产品等理论研究,管理机制、方法和模型的智能化,加强农业资源的集成与共享与数据专业人才的建设。
2 高性能计算系统
高性能计算(HPC)是计算机科学与技术的一个重要分支,主要是指从体系结构、并行算法和软件开发等多个方面研究开发高性能计算机技术[2]。为满足日益增长的高性能计算需求,世界各国纷纷制定高性能计算机发展计划,不断提升高性能计算机的性能,相应的计算机系统能耗也不断提高。通过高性能计算,人们可以完成很多目前计算机无法完成的实验,既可以免除真实实验的巨大费用,又不会对环境造成任何影响[3]。
在全球竞争日益激烈的今天,HPC系统已广泛应用于生活,其专注于性能,只有充分发挥高性能计算系统的整体性能,才能促进社会经济实力的提高并更好地为科技发展服务。HPC系统最早应用于计算技术领域,该领域的应用主要包含科学计算、工程模拟与仿真、信号处理、图像处理、可视化与业务计算。
3 高性能计算系统在农业大数据中的应用
3.1 高性能计算系统的作用
本文主要探讨了如何将高性能计算更有效地与农业大数据的处理相融合,从而推动农业的发展。数据规模的不断扩大推动着移动和其他设备的普及,以及云计算的发展。高性能计算协会和企业正在寻找一种收集、存储和组合这些数据的实际分析的方法,以便在执行计划之前研究数据。大数据进入现代社会,单台计算机处理大数据量的能力越来越受到限制,而大规模的计算集群存在着占用空间大、功耗大、维护成本高等诸多不便,所以更多计算机节点构建一个小型计算集群,在并行计算性能的情况下尽可能降低计算成本,并将集群应用于实际的大型农业数据处理,为处理大数据提供一个更好的平台。高性能的计算空间和最终数据中心基础架构的建立依赖于计算能力的提升。大数据的出现给很多领域带来了质的飞跃,也对计算机系统结构、储存一体的新型计算机系统、以数据为基底的计算,以及基于大型内存数据组织和处理方法和新存储级别内存计算系统等提出了挑战。HPC系统也将推动农业升华到一个新的台阶。目前,收集到的农业数据越来越多,所以在一些农业发展较好的地域建立农业数据中心是急需解决的问题,建立农业数据中心旨在更有效地解决农业数据分析和农业机器学习的问题。
3.2 高性能計算在农业大数据处理中面临的问题
随着系统的扩展,高性能计算机应用在农业大数据的处理面临许多挑战,由此可知,依靠传统技术提高其性能是不可行的。高性能计算在数据处理和开发面临的问题有能源消耗、存储、编程、通信和可靠性等。过去,人们已经用了数以百种的方法计算大量数据,如爬取文档、web请求日志等;对每个主机爬虫的页面数量的总结,且在限定日期中最常见的查询集合等。然而,输入数据通常很大,计算必须分布在数百或数千台机器上,以便在合理的时间内完成。农业大数据具有类型多样化、要求及时响应、以及数据的不确定性等特性。大量的数据存储目前可以用Mongodb、Redis、Mongodb。而高维大数据的如何存储取决于是在数据之上做的计算,其计算又分为离线计算与在线查询。国外有Google、Facebook、Microsoft,国内则有阿里巴巴、腾讯、百度等互联网企业推出不同的大数据处理系统。借助于遗传算法、神经网络、数据挖掘、机器与关联规则学习、聚类分析、分布式文件系统、可视化技术等来应用于大数据。数据系统的建立应在能源效率以及占用物理空间等其他的领域做出相对应的改善。 3.3 高性能计算在系统农业大数据中的应用研究
3.3.1 MapReduce模型处理农业大数据分析
目前大数据分析是并行数据库、MapReduce以及两者的混合架构的主流实现平台。在农业大数据的处理中,通常采用MapReduce编程模型。MapReduce模型的实现方式有多种,其应用环境决定其应用的方式。MapReduce的优势在于具有自动并行化,能根据应用实例数量来调度开启的Map和Reduce来均衡处理计算,有中间的存储文件,且最后的计算结果都会集中到配套的分布式文件系统中,不会因单个实例的阻塞影响执行过程和结果。MapReduce编程模型简单、容错机制强,适合大规模集群环境下的并行计算,其在Google中成功应用有几个原因:第一,该模型易于使用,即使是没有并行和分布式系统经验的程序员也可以顺利使用,因为它隐藏了并行化、容错、局部优化和负载平衡的细节;第二,MapReduce计算可以很容易地表达各种的问题;第三,若能开发一个可以扩展到包含数千台机器的大型机器集群的MapReduce,将能有效地利用了这些机器资源解决的大量计算问题。同时应考虑三个因素:一是需使限制编程模型让并行计算和分布式计算变得容易并使其容错;二是需考虑网络带宽问题;三是可以使用闲置的部分執行来减少机器的影响,并处理机器故障和数据丢失。
3.3.2 数据可视化技术的应用
可视化的范围涵盖很多学科,其在航空航天、气象学、海洋学、金融学、电子商务、通信技术、石油探测以及生物分子学等领域涉及范围广。数据可视化则只是可视化中的一个分支学科,是直观、艺术、关联、交互和智能性的结合。大多数可视化是通过检索原始数据来生成的从数据库和使用专门的可视化工具来处理和渲染的。可视化的要求简单易懂,可以让本身未涉及某个领域的人们直观地了解情况。但可视化本身的复杂性并不等于数据本身的复杂性,可视化的目的是让用户获取数据和挖掘有用的信息。今天,信息技术的不断应用,在农业生产和应用中面对大量的数据进行分析和深度学习,有效地利用信息技术更好地解决问题。一般数据可视化是和数据分析功能性的组合,社会发展的今天数据可视化也应该跟着时代的步伐,比起数据处理和数据展示耗力其更要强调功能的实用性,让更多的人了解数据可视化。而目前大数据、云计算、人工智能的火爆程度可想而知,数据可视化已无法满足信息现状所需,人们的步伐更应落实到有据可依的分析与决策制定中去。
3.3.3 高性能计算系统的应用
高性能计算中心强调的是计算而农业大数据强调农业数据储存,服务器则强调是IO能力。不管是储存数据的还是计算能力,都需要其中之一充当指挥能力,来管理整个大数据的硬件和软件基础信息,共享的数据信息,协调各个农业数据中心的资源分配,调度数据、存储、备份等。一般情况下,储存数据的充当管理的角色,高性能计算系统则单就是强调计算。从硬件配置和网络带宽分配来看,储存数据是没有计算的需求高。数据计算需要实时在线、并发高、缓存需求大,而大数据的数据存储的备份可以后台分时处理。二者是一个统一的协调机构,如果将计算与储存相结合,那么农业数据中心将会大大提高数据处理的精确度。农业数据中心这样大规模数据处理的地方也需要高性能计算在其中发挥重要的作用。
4 农业大数据未来发展与思考
大数据是在信息化基础上的提升,未来的农业大数据会是以数据开放与数据共享模式来推动交易资源建设,以交易和产品的并行模式来推动大数据的新发展。而如何加速农业大数据发展的进程还需大力推进公共数据资源共享,整合大数据交易的基本功能,为云计算中心建设大型数据交易以及使数据与数据源同步与促进大数据交易和应用的发展和建设国家大数据交易产业链。农业大数据的研究与探讨还有许多未曾涉及的领域,这需要广大科研爱好者去探究与发现。
参考文献
[1]杨瑛,崔运鹏.我国智慧农业关键技术与未来发展[J].信息技术与标准化,2015(6):34-37.
[2]温孚江.农业大数据研究的战略意义与协同机制[J].高等农业教育,2013(11):3-6.
[3]孙忠富,杜克明,郑飞翔,等.大数据在智慧农业中研究与应用展望[J].中国农业科技導报,2013(6):63-71.
(责任编辑:刘昀)
关键词 农业;大数据;高性能计算系统
中图分类号:S-1 文献标志码:A DOI:10.19415/j.cnki.1673-890x.2017.26.061
中国的农业面临着资源短缺、污染加剧、大规模生产和小规模生产对接困难、国内生产和国际市场失配问题,迫切需要信息技术促进创新发展,加快农业现代化建设。农业本身就是高度复杂的生态系统,既是产生原始数据的源头,也是利用数据进行处理分析、价值发现的重要领域。大数据的发展只有与农业深度融合,才能发挥出其对农业的利益最大化[1]。本文主要探讨了农业大数据在面临大规模的数据处理时可以利用高性能计算系统来处理,从而有效提高数据处理的精确度与复杂度。结合农业方面的特征,对农业大数据进行整合,分析农业大数据处理流程,运用高性能计算系统来设计农业数据的总体框架、标准体系,以及农业大数据未来发展的展望等。
1 农业大数据的现实含义
1.1 农业大数据的现状
随着移动互联网时代的到来,信息的透明度一直在不断增加,社会媒体和信息传播将进一步发展,这个时代充满了许多可能。国家农业部1号文件强调了国家对农业的支持,使国家经济高速增长,凭借资本的力量,迅速占领农业市场份额的大数据,定为未来做足准备。但就中国目前农业现状来说,其生产效率还较低,提升的空间较大,而农业大数据的应用正好应对当前困难。
就国外农业情况而言,如美国的规模化农场的作物分布稳定、面积大,且分工明确,具备完整的产业链;荷兰的现代温室植物工厂,农业精细化管理有着“温室王国”之稱;以色列的节水农业;地方保护下的日本农业以及资本与人力交汇的东南亚种植园等。随着物联网技术的发展,国外的农业种植大部分是机械产生的,自动化和程序化也很明显。在大数据时代,农产品种植过程、运输过程数据可视化已成为趋势。
1.2 农业大数据含义与前景
数据是看不见、摸不着的,它没有一个实物的形式存在。农业大数据是基于发展农业生产力时采集到的无数个小数据,进行分析、归纳、整合,从而形成的农业大数据。其对农业的生产和发展的作用相当明显,它可以追溯到作物播种时种子需要的环境,生长时化肥需用量和农药等其他研究开发与种植过程的数据;农产品加工、产品营销、产品物流、农业金融等数据都属于农业数据的范围,其贯穿整个产业链,规模庞大且复杂。农业是具有时间属性和空间属性的产业,因此需要在不同的时间点与农业领域考虑各种原因。基于已有的农业大数据现状,目前其研究可集中于大数据技术在农业生产的精细化,在农业经营管理中大型数据关联分析的方法、模型与产品等理论研究,管理机制、方法和模型的智能化,加强农业资源的集成与共享与数据专业人才的建设。
2 高性能计算系统
高性能计算(HPC)是计算机科学与技术的一个重要分支,主要是指从体系结构、并行算法和软件开发等多个方面研究开发高性能计算机技术[2]。为满足日益增长的高性能计算需求,世界各国纷纷制定高性能计算机发展计划,不断提升高性能计算机的性能,相应的计算机系统能耗也不断提高。通过高性能计算,人们可以完成很多目前计算机无法完成的实验,既可以免除真实实验的巨大费用,又不会对环境造成任何影响[3]。
在全球竞争日益激烈的今天,HPC系统已广泛应用于生活,其专注于性能,只有充分发挥高性能计算系统的整体性能,才能促进社会经济实力的提高并更好地为科技发展服务。HPC系统最早应用于计算技术领域,该领域的应用主要包含科学计算、工程模拟与仿真、信号处理、图像处理、可视化与业务计算。
3 高性能计算系统在农业大数据中的应用
3.1 高性能计算系统的作用
本文主要探讨了如何将高性能计算更有效地与农业大数据的处理相融合,从而推动农业的发展。数据规模的不断扩大推动着移动和其他设备的普及,以及云计算的发展。高性能计算协会和企业正在寻找一种收集、存储和组合这些数据的实际分析的方法,以便在执行计划之前研究数据。大数据进入现代社会,单台计算机处理大数据量的能力越来越受到限制,而大规模的计算集群存在着占用空间大、功耗大、维护成本高等诸多不便,所以更多计算机节点构建一个小型计算集群,在并行计算性能的情况下尽可能降低计算成本,并将集群应用于实际的大型农业数据处理,为处理大数据提供一个更好的平台。高性能的计算空间和最终数据中心基础架构的建立依赖于计算能力的提升。大数据的出现给很多领域带来了质的飞跃,也对计算机系统结构、储存一体的新型计算机系统、以数据为基底的计算,以及基于大型内存数据组织和处理方法和新存储级别内存计算系统等提出了挑战。HPC系统也将推动农业升华到一个新的台阶。目前,收集到的农业数据越来越多,所以在一些农业发展较好的地域建立农业数据中心是急需解决的问题,建立农业数据中心旨在更有效地解决农业数据分析和农业机器学习的问题。
3.2 高性能計算在农业大数据处理中面临的问题
随着系统的扩展,高性能计算机应用在农业大数据的处理面临许多挑战,由此可知,依靠传统技术提高其性能是不可行的。高性能计算在数据处理和开发面临的问题有能源消耗、存储、编程、通信和可靠性等。过去,人们已经用了数以百种的方法计算大量数据,如爬取文档、web请求日志等;对每个主机爬虫的页面数量的总结,且在限定日期中最常见的查询集合等。然而,输入数据通常很大,计算必须分布在数百或数千台机器上,以便在合理的时间内完成。农业大数据具有类型多样化、要求及时响应、以及数据的不确定性等特性。大量的数据存储目前可以用Mongodb、Redis、Mongodb。而高维大数据的如何存储取决于是在数据之上做的计算,其计算又分为离线计算与在线查询。国外有Google、Facebook、Microsoft,国内则有阿里巴巴、腾讯、百度等互联网企业推出不同的大数据处理系统。借助于遗传算法、神经网络、数据挖掘、机器与关联规则学习、聚类分析、分布式文件系统、可视化技术等来应用于大数据。数据系统的建立应在能源效率以及占用物理空间等其他的领域做出相对应的改善。 3.3 高性能计算在系统农业大数据中的应用研究
3.3.1 MapReduce模型处理农业大数据分析
目前大数据分析是并行数据库、MapReduce以及两者的混合架构的主流实现平台。在农业大数据的处理中,通常采用MapReduce编程模型。MapReduce模型的实现方式有多种,其应用环境决定其应用的方式。MapReduce的优势在于具有自动并行化,能根据应用实例数量来调度开启的Map和Reduce来均衡处理计算,有中间的存储文件,且最后的计算结果都会集中到配套的分布式文件系统中,不会因单个实例的阻塞影响执行过程和结果。MapReduce编程模型简单、容错机制强,适合大规模集群环境下的并行计算,其在Google中成功应用有几个原因:第一,该模型易于使用,即使是没有并行和分布式系统经验的程序员也可以顺利使用,因为它隐藏了并行化、容错、局部优化和负载平衡的细节;第二,MapReduce计算可以很容易地表达各种的问题;第三,若能开发一个可以扩展到包含数千台机器的大型机器集群的MapReduce,将能有效地利用了这些机器资源解决的大量计算问题。同时应考虑三个因素:一是需使限制编程模型让并行计算和分布式计算变得容易并使其容错;二是需考虑网络带宽问题;三是可以使用闲置的部分執行来减少机器的影响,并处理机器故障和数据丢失。
3.3.2 数据可视化技术的应用
可视化的范围涵盖很多学科,其在航空航天、气象学、海洋学、金融学、电子商务、通信技术、石油探测以及生物分子学等领域涉及范围广。数据可视化则只是可视化中的一个分支学科,是直观、艺术、关联、交互和智能性的结合。大多数可视化是通过检索原始数据来生成的从数据库和使用专门的可视化工具来处理和渲染的。可视化的要求简单易懂,可以让本身未涉及某个领域的人们直观地了解情况。但可视化本身的复杂性并不等于数据本身的复杂性,可视化的目的是让用户获取数据和挖掘有用的信息。今天,信息技术的不断应用,在农业生产和应用中面对大量的数据进行分析和深度学习,有效地利用信息技术更好地解决问题。一般数据可视化是和数据分析功能性的组合,社会发展的今天数据可视化也应该跟着时代的步伐,比起数据处理和数据展示耗力其更要强调功能的实用性,让更多的人了解数据可视化。而目前大数据、云计算、人工智能的火爆程度可想而知,数据可视化已无法满足信息现状所需,人们的步伐更应落实到有据可依的分析与决策制定中去。
3.3.3 高性能计算系统的应用
高性能计算中心强调的是计算而农业大数据强调农业数据储存,服务器则强调是IO能力。不管是储存数据的还是计算能力,都需要其中之一充当指挥能力,来管理整个大数据的硬件和软件基础信息,共享的数据信息,协调各个农业数据中心的资源分配,调度数据、存储、备份等。一般情况下,储存数据的充当管理的角色,高性能计算系统则单就是强调计算。从硬件配置和网络带宽分配来看,储存数据是没有计算的需求高。数据计算需要实时在线、并发高、缓存需求大,而大数据的数据存储的备份可以后台分时处理。二者是一个统一的协调机构,如果将计算与储存相结合,那么农业数据中心将会大大提高数据处理的精确度。农业数据中心这样大规模数据处理的地方也需要高性能计算在其中发挥重要的作用。
4 农业大数据未来发展与思考
大数据是在信息化基础上的提升,未来的农业大数据会是以数据开放与数据共享模式来推动交易资源建设,以交易和产品的并行模式来推动大数据的新发展。而如何加速农业大数据发展的进程还需大力推进公共数据资源共享,整合大数据交易的基本功能,为云计算中心建设大型数据交易以及使数据与数据源同步与促进大数据交易和应用的发展和建设国家大数据交易产业链。农业大数据的研究与探讨还有许多未曾涉及的领域,这需要广大科研爱好者去探究与发现。
参考文献
[1]杨瑛,崔运鹏.我国智慧农业关键技术与未来发展[J].信息技术与标准化,2015(6):34-37.
[2]温孚江.农业大数据研究的战略意义与协同机制[J].高等农业教育,2013(11):3-6.
[3]孙忠富,杜克明,郑飞翔,等.大数据在智慧农业中研究与应用展望[J].中国农业科技導报,2013(6):63-71.
(责任编辑:刘昀)