论文部分内容阅读
地球科学研究大气、陆地和海洋等相关问题,已经产生了大量来自卫星观测、地面传感器网络和其他来源的地球大数据,为地球系统科学深入研究带来了新的机遇。地球大数据在未来促进地球科学的深入发展方面具有很大潜力,将对科学发现做出重要贡献。地球大数据具有海量、多源、异构、多时相、多尺度、高度复杂、非平稳、非结构化等特点,为地球科学中的数据密集型研究提供了支持。地球大数据是地球科学与数据科学、信息科学等领域的交叉,可以通过全球变化、人地关系与环境效应、地球圈层关系与机理等重大科学计划积累的科学数据,驱动科学发现,为人类活动、生态环境保护和自然资源管理等提供各种知识和决策支持。
在过去10年,数据驱动科学发现在地球科学研究中得到了广泛的关注,在越来越多的资助项目、科学设施、共享数据集和发表的科学论文上都有所体现。网络基础设施、数据门户、数据库、工作平台、统计模型、机器学习算法、数据管理和数据共享正在成为地球科学研究的新常态。各种数据驱动科学发现的成功案例不断出现,数据革命的巨大潜力得到显现,加速了地球科学的创新和新发现,地球大数据将在未来几十年的发展中,发挥重要的作用。
1 地球大数据总体态势
1.1 地球大数据驱动的科学发现成为数据密集型科学范式的代表
近年来,数据量、数据产生速度和数据种类的快速增长驱动了地球大数据发展。世界各国地球科学研究机构部署的空间观测卫星、地面实验仪器和地球模拟器等产生大量数据,并进行数据的存储与传输,开发先进的数据分析软件与知识发现系统,支持科学家更多关注数据流中下游的科学发现。
云计算、机器学习和深度学习在地球科学领域得到了广泛应用,并取得了重要成果。在古生物学、矿物学、水资源、森林覆盖变化和可持续发展等领域,都产生了许多由数据驱动的创新发现。在地球大数据时代,人们对地球系统的认识正从收集传统的经验数据、理论推导和模拟局部物理过程转变为利用和挖掘地球大数据进行知识发现,从而探索地球系统中不同关键信息子系统和生物物理变量之间的相关性和相互作用。
地球系统科学的发展已经进入了数据密集型科学研究的阶段,地球大数据已逐渐成为地球系统科学发现和知识创新的新動力。
1.2 地球大数据发展为智慧数据生命周期带来新变化
地球大数据不是简单的转储和共享,也不仅仅依靠机器学习就能识别复杂的模式,需要应用元数据和语义在数据生成和收集中增加更多机器可读的结构,开发智能算法以提高数据发现和分析的进度,帮助研究人员快速对数据进行分类整理,并智能检索提取重要信息。传统的数据处理和知识发现方法不再适用,未来地球大数据需要更好地进行数据融合,有效地组织海量、时空密集的数据,使用自动匹配、智能计算,从数据中高效地挖掘知识,在数据生命周期中不断创造奇迹。
2 主要国家战略举措与特点
近年来,世界主要国家已将大数据研究上升至国家战略层面,先后部署一系列地球大数据相关重大计划和研究项目,从整体视角审视地球系统,利用地球大数据驱动跨学科、跨尺度宏观科学发现。
国际地球大数据发展经历了一系列的大科学计划牵引:1999 年,时任美国副总统戈尔提出“数字地球”,以及理解地球进而管理地球的理念;2001年美国的“地球透镜计划”,了解地表以下1 000 m 深度的地质状况;2012年国际科学理事会和国际社会科学理事会发起的“未来地球”计划,促进自然科学与社会科学的联系与融合;2016年联合国教科文组织提出“化学地球”计划,以实现全球地球化学大数据和知识共享。2016 年,中国科学家发起基于地球大数据的“数字丝路”国际科学计划,通过构建地球大数据平台,解决区域及全球发展问题。地球大数据逐渐向更深、更广、更精细化的方向发展,驱动地球科学的模拟与预测等相关研究。
2.1 美国:重视地球大数据的共享、算法集成和地球大数据研究培训
2012年,美国政府发布“大数据研发计划”,提高从海量和复杂的数据中获取信息与知识的能力。
随后美国地质调查局(USGS)启动数据标准化及人工智能模拟的 LCMAP 计划,监测和分析土地覆盖变化情况评估、植被状况,模拟过去、现在和未来的地质景观数据。美国国家科学基金会(NSF)启动“地球立方体”项目,以整体视角审视地球系统并管理地球科学知识的综合框架。
美国《时域地球——美国国家科学基金会地球科学十年愿景(2020—2030 年)》提出地球科学正处于转折时期,开放的数据资源、网络基础设施,以及用于分析和可视化的数据科学方法将改变地球科学研究的方式。继续开发、整合和利用仪器设施、数据与专门知识,对不断演变的地球进行更深层次探索。
应对地球大数据的挑战,必须在算法集成、软件开发管理、自动数据格式识别和读取,以及数据研究培训方面取得进步。
2.2 欧洲各国/组织:重视地球空间大数据基础设施建设与数据聚合模拟
欧盟的“对地观测计划”“数字欧洲”“地平线计划”,以及瑞士的“活地球模拟器项目”“数据立方体计划”等,都重视数据质量,以及数据的共享与使用,以推动欧洲处在地球空间大数据的前沿。
欧洲各国还通过建立法律框架推动地球科学数据发现、获取和统一,加强其科技创新与科研竞争力。
英国建立开放式数据研究所,加大在地球大数据技术应用的支持,新建多个地球大数据研究与应用中心,推进地球大数据的发展。
未来欧洲多国将加大在人工智能、机器学习、高性能计算和大数据方面的研究投入,以推进地球大数据科学的发展与应用。
2.3 澳大利亚:利用“玻璃地球”计划和“数据立方体”项目提升地球大数据的存储管理与挖掘分析能力
矿业大国澳大利亚为了寻找新的矿床,1999 年首先提出了“玻璃地球”的概念,希望通过多种地质手段、地球物理方法、地球化学方法及信息化技术,获取海量的数据,以了解大陆地表以下 1 000 m 深度以内的地质状况,利用可视化和模拟技术建立三维地质模型,及时查询、分析、处理所获得的地球大数据,从而对地下的构造、岩层、矿产及灾害做出正确合理的决策。这一概念提出后,世界各国纷纷效仿,开始投入大量资金实施。 近年来澳大利亚又先后启动了“数字地球”项目与“数据立方体”项目。“数据立方体”作为存储、组织、管理和分析地球空间观测数据的新解决方案,正受到越来越多的关注,其目标是实现地球空间观测数据仓储的全部潜力,提供对大型时空数据的访问。
2.4 中国:利用地球大数据资源建设,驱动科学发现,引擎科研创新
2018 年,中国科学院启动战略性先导科技专项(A 类)“地球大数据科学工程”(CASEarth),通过打造国际一流的数字地球科学平台,实现地球系统科学的重大突破和科学发现。2019 年,首届中国数字地球大会发布了地球大数据原型系统,实现了从数据到信息再到可视化模拟的全过程功能,同时也发布了全球数字地球领域的首部学术著作《数字地球手册》。
2020年,第 75 届联合国大会期间,中国发布了《地球大数据支撑可持续发展目标报告(2020)》,为联合国《改变我们的世界:2030年可持续发展议程》有效实施提供解决方案和科技支撑。
2020 年,中国自然资源部整合构建了多圈层、多专业、多要素的地球科学“一张图”大数据体系,其可为城市规划、建设和管理提供资源、环境、生态、灾害、空间信息支撑服务。中国在国际地球大数据科学的相关研究与大科学计划上处于引领地位。
3 地球大数据重点领域态势与热点
3.1 地球大数据推动地球系统模拟与预测的实现
3.1.1 地球大数据的发展和应用促进了多学科交叉融合深度。地球大数据学科发展需要多学科交叉:以机器学习为代表的人工智能与大数据深度融合,深度学习在计算机领域上的高速发展给数据集成与分析提供了新方法,地理众源大数据的普及则加速了深度学习在科学数据上的应用,并行计算使地球大数据计算成为可能,人工智能提高地球大数据的理解与分析,数字孪生、物联网使地球物理模型和虚拟模型关联互通,以及高性能计算的发展和应用推动地球系统的模拟和预测的实现。
3.1.2 地球大数据研究有助于提升对地球系统行为的预报能力。近年来,研究人员基于 24 年的观测和再分析材料,实现了长达 2 天的台风预报,准确率超过85%。基于北纬 30° 以北 36 年的海冰观测数据,获得了北极海冰覆盖范围的 6 种显著时空影响要素。地球大数据也被应用于经济活动等预测。例如,多家企业利用遥感大数据对矿石户外堆放情况及储油罐在不同太阳高度角阴影的观测,追踪、预测大型矿产和原油的供需变化,最终预测其价格波动。
3.1.3 地球大数据可以为人类活动、生态环境保护和自然资源管理提供各种决策支持。以地球系统科学为基本理论,基于大数据、云计算和人工智能等新一代技术体系,通过全球统一数据描述、基准与组织框架和数据共享机制,以及交互可视化与云服务集成等建设,实现对地球系统实时感知和模拟预测,从而对生态环境建设、城乡土地覆盖变化、灾害监测和防治、城市发展规划、资源利用开采、人类命运共同体建设等起到决策支持。
3.2 地球大数据助推科学研究纵深发展
3.2.1 为地球系统科学研究带来新的机遇。从航空航天、地面深井、海洋河流等多空间尺度对地球系统的观(探)测获取空间和时间尺度上地质、物理和化学等信息,了解和掌握自然资源、环境、灾害和生态现状与变化规律,探测陆域和海域能源矿产资源,研究地球内部结构,推动地球科学新的发展。
3.2.2 推动数字地球向智慧地球转变。越来越多的应用研究以地球大数据为基础,利用大数据分析技术对数据进行整合,着重挖掘数据的内在联系和相关性,在全球动力学研究、成岩成矿预测、地质灾害的预警预报与灾害评估、生命的演化、古地理环境重建,以及综合地质信息服务平台的建设中发挥了重要作用,进而实现更智能化地洞察地球。
3.2.3 促进科学研究向开放科学发展。开放科学已成为科学研究新的发展方向,包括对出版物的开放访问、开放源码软件程序、开放数据、开放样本和开放工作流。许多地球科学数据门户现在都有 Python 或 R 包,使用户能够直接从工作流中搜索和访问数据,并在地球科学中取得了各种成功应用;未来,工作流平台将广泛应用于地球科学领域。通过各种协议和接口,地球大数据变得更加开放、更易访问和更易于交互,使得开放的地球大数据研究成为新常态。
3.3 地球大数据服务全球变化研究和可持续发展目标
3.3.1 地球大数据服务全球变化研究。全球变化主要研究全球变化现象的内在联系,分析地球各圈层及地球系统中的物理过程、生物过程和化学过程的相互作用和机理,并对人类生存环境做出预测,以便人们更好地生存发展。全球变化研究系统工程涉及各种海量的参数与分布数据,且数据之间的关系复杂;地球大数据发展可以描述并模拟其复杂关系,然后进行功能分析,以支持决策和管理。地球大数据也将在碳中和相关研究与管理中发挥重大作用。
3.3.2 地球大数据促进联合国可持续发展目标实现。联合国可持续发展目标,旨在所有国家和利益攸关方携手合作,阻止地球的退化,以可持续的方式进行消费和生产,管理地球环境和自然资源,使地球能够满足后代的需求,让全球走上可持续且具恢复力的道路。通过综合集成资源、环境、生态和生物领域的地球大数据,构建可持续发展评价指标体系和决策支持平台,解决目前国际指标体系数据缺失和质量不高的问题,服务于联合国可持续发展目标的指标监测评估研究。
4 未来建议
4.1 建设跨学科和多维地球科学大数据平台
地球大数据发展将促进传统地球科学与地理信息学、数据科学等现代学科的整合。建议我国尽快建设多学科知识系统数字化连接新平台,利用先进的信息技术(如云计算、并行计算、超级计算、复杂网络、知识图谱、机器学习和人工智能等)对快速增长、异构、多源的海量数据进行数据挖掘、知识发现,促进复杂模型的开发,增强数据驱动和模型驱动方法的融合,為地球科学研究提供不可或缺的支持。
4.2 利用地球大数据资源建设推进国际科技合作
大数据是新的国家战略与大国博弈空间,地球科学大数据为应对全球挑战提供了基础。建议我国以地球大数据资源建设为抓手,促进各科学学科、不同利益相关者和不同地理尺度的决策者之间的对话,提供全球应对挑战的统一解决方案,通过国际地球科学计划开展科技合作,模拟和预测未来全球环境变化,拓展地球系统研究的新发现,为构建人类命运共同体和科技外交提供支撑。
(来源:中国科学院院刊)
在过去10年,数据驱动科学发现在地球科学研究中得到了广泛的关注,在越来越多的资助项目、科学设施、共享数据集和发表的科学论文上都有所体现。网络基础设施、数据门户、数据库、工作平台、统计模型、机器学习算法、数据管理和数据共享正在成为地球科学研究的新常态。各种数据驱动科学发现的成功案例不断出现,数据革命的巨大潜力得到显现,加速了地球科学的创新和新发现,地球大数据将在未来几十年的发展中,发挥重要的作用。
1 地球大数据总体态势
1.1 地球大数据驱动的科学发现成为数据密集型科学范式的代表
近年来,数据量、数据产生速度和数据种类的快速增长驱动了地球大数据发展。世界各国地球科学研究机构部署的空间观测卫星、地面实验仪器和地球模拟器等产生大量数据,并进行数据的存储与传输,开发先进的数据分析软件与知识发现系统,支持科学家更多关注数据流中下游的科学发现。
云计算、机器学习和深度学习在地球科学领域得到了广泛应用,并取得了重要成果。在古生物学、矿物学、水资源、森林覆盖变化和可持续发展等领域,都产生了许多由数据驱动的创新发现。在地球大数据时代,人们对地球系统的认识正从收集传统的经验数据、理论推导和模拟局部物理过程转变为利用和挖掘地球大数据进行知识发现,从而探索地球系统中不同关键信息子系统和生物物理变量之间的相关性和相互作用。
地球系统科学的发展已经进入了数据密集型科学研究的阶段,地球大数据已逐渐成为地球系统科学发现和知识创新的新動力。
1.2 地球大数据发展为智慧数据生命周期带来新变化
地球大数据不是简单的转储和共享,也不仅仅依靠机器学习就能识别复杂的模式,需要应用元数据和语义在数据生成和收集中增加更多机器可读的结构,开发智能算法以提高数据发现和分析的进度,帮助研究人员快速对数据进行分类整理,并智能检索提取重要信息。传统的数据处理和知识发现方法不再适用,未来地球大数据需要更好地进行数据融合,有效地组织海量、时空密集的数据,使用自动匹配、智能计算,从数据中高效地挖掘知识,在数据生命周期中不断创造奇迹。
2 主要国家战略举措与特点
近年来,世界主要国家已将大数据研究上升至国家战略层面,先后部署一系列地球大数据相关重大计划和研究项目,从整体视角审视地球系统,利用地球大数据驱动跨学科、跨尺度宏观科学发现。
国际地球大数据发展经历了一系列的大科学计划牵引:1999 年,时任美国副总统戈尔提出“数字地球”,以及理解地球进而管理地球的理念;2001年美国的“地球透镜计划”,了解地表以下1 000 m 深度的地质状况;2012年国际科学理事会和国际社会科学理事会发起的“未来地球”计划,促进自然科学与社会科学的联系与融合;2016年联合国教科文组织提出“化学地球”计划,以实现全球地球化学大数据和知识共享。2016 年,中国科学家发起基于地球大数据的“数字丝路”国际科学计划,通过构建地球大数据平台,解决区域及全球发展问题。地球大数据逐渐向更深、更广、更精细化的方向发展,驱动地球科学的模拟与预测等相关研究。
2.1 美国:重视地球大数据的共享、算法集成和地球大数据研究培训
2012年,美国政府发布“大数据研发计划”,提高从海量和复杂的数据中获取信息与知识的能力。
随后美国地质调查局(USGS)启动数据标准化及人工智能模拟的 LCMAP 计划,监测和分析土地覆盖变化情况评估、植被状况,模拟过去、现在和未来的地质景观数据。美国国家科学基金会(NSF)启动“地球立方体”项目,以整体视角审视地球系统并管理地球科学知识的综合框架。
美国《时域地球——美国国家科学基金会地球科学十年愿景(2020—2030 年)》提出地球科学正处于转折时期,开放的数据资源、网络基础设施,以及用于分析和可视化的数据科学方法将改变地球科学研究的方式。继续开发、整合和利用仪器设施、数据与专门知识,对不断演变的地球进行更深层次探索。
应对地球大数据的挑战,必须在算法集成、软件开发管理、自动数据格式识别和读取,以及数据研究培训方面取得进步。
2.2 欧洲各国/组织:重视地球空间大数据基础设施建设与数据聚合模拟
欧盟的“对地观测计划”“数字欧洲”“地平线计划”,以及瑞士的“活地球模拟器项目”“数据立方体计划”等,都重视数据质量,以及数据的共享与使用,以推动欧洲处在地球空间大数据的前沿。
欧洲各国还通过建立法律框架推动地球科学数据发现、获取和统一,加强其科技创新与科研竞争力。
英国建立开放式数据研究所,加大在地球大数据技术应用的支持,新建多个地球大数据研究与应用中心,推进地球大数据的发展。
未来欧洲多国将加大在人工智能、机器学习、高性能计算和大数据方面的研究投入,以推进地球大数据科学的发展与应用。
2.3 澳大利亚:利用“玻璃地球”计划和“数据立方体”项目提升地球大数据的存储管理与挖掘分析能力
矿业大国澳大利亚为了寻找新的矿床,1999 年首先提出了“玻璃地球”的概念,希望通过多种地质手段、地球物理方法、地球化学方法及信息化技术,获取海量的数据,以了解大陆地表以下 1 000 m 深度以内的地质状况,利用可视化和模拟技术建立三维地质模型,及时查询、分析、处理所获得的地球大数据,从而对地下的构造、岩层、矿产及灾害做出正确合理的决策。这一概念提出后,世界各国纷纷效仿,开始投入大量资金实施。 近年来澳大利亚又先后启动了“数字地球”项目与“数据立方体”项目。“数据立方体”作为存储、组织、管理和分析地球空间观测数据的新解决方案,正受到越来越多的关注,其目标是实现地球空间观测数据仓储的全部潜力,提供对大型时空数据的访问。
2.4 中国:利用地球大数据资源建设,驱动科学发现,引擎科研创新
2018 年,中国科学院启动战略性先导科技专项(A 类)“地球大数据科学工程”(CASEarth),通过打造国际一流的数字地球科学平台,实现地球系统科学的重大突破和科学发现。2019 年,首届中国数字地球大会发布了地球大数据原型系统,实现了从数据到信息再到可视化模拟的全过程功能,同时也发布了全球数字地球领域的首部学术著作《数字地球手册》。
2020年,第 75 届联合国大会期间,中国发布了《地球大数据支撑可持续发展目标报告(2020)》,为联合国《改变我们的世界:2030年可持续发展议程》有效实施提供解决方案和科技支撑。
2020 年,中国自然资源部整合构建了多圈层、多专业、多要素的地球科学“一张图”大数据体系,其可为城市规划、建设和管理提供资源、环境、生态、灾害、空间信息支撑服务。中国在国际地球大数据科学的相关研究与大科学计划上处于引领地位。
3 地球大数据重点领域态势与热点
3.1 地球大数据推动地球系统模拟与预测的实现
3.1.1 地球大数据的发展和应用促进了多学科交叉融合深度。地球大数据学科发展需要多学科交叉:以机器学习为代表的人工智能与大数据深度融合,深度学习在计算机领域上的高速发展给数据集成与分析提供了新方法,地理众源大数据的普及则加速了深度学习在科学数据上的应用,并行计算使地球大数据计算成为可能,人工智能提高地球大数据的理解与分析,数字孪生、物联网使地球物理模型和虚拟模型关联互通,以及高性能计算的发展和应用推动地球系统的模拟和预测的实现。
3.1.2 地球大数据研究有助于提升对地球系统行为的预报能力。近年来,研究人员基于 24 年的观测和再分析材料,实现了长达 2 天的台风预报,准确率超过85%。基于北纬 30° 以北 36 年的海冰观测数据,获得了北极海冰覆盖范围的 6 种显著时空影响要素。地球大数据也被应用于经济活动等预测。例如,多家企业利用遥感大数据对矿石户外堆放情况及储油罐在不同太阳高度角阴影的观测,追踪、预测大型矿产和原油的供需变化,最终预测其价格波动。
3.1.3 地球大数据可以为人类活动、生态环境保护和自然资源管理提供各种决策支持。以地球系统科学为基本理论,基于大数据、云计算和人工智能等新一代技术体系,通过全球统一数据描述、基准与组织框架和数据共享机制,以及交互可视化与云服务集成等建设,实现对地球系统实时感知和模拟预测,从而对生态环境建设、城乡土地覆盖变化、灾害监测和防治、城市发展规划、资源利用开采、人类命运共同体建设等起到决策支持。
3.2 地球大数据助推科学研究纵深发展
3.2.1 为地球系统科学研究带来新的机遇。从航空航天、地面深井、海洋河流等多空间尺度对地球系统的观(探)测获取空间和时间尺度上地质、物理和化学等信息,了解和掌握自然资源、环境、灾害和生态现状与变化规律,探测陆域和海域能源矿产资源,研究地球内部结构,推动地球科学新的发展。
3.2.2 推动数字地球向智慧地球转变。越来越多的应用研究以地球大数据为基础,利用大数据分析技术对数据进行整合,着重挖掘数据的内在联系和相关性,在全球动力学研究、成岩成矿预测、地质灾害的预警预报与灾害评估、生命的演化、古地理环境重建,以及综合地质信息服务平台的建设中发挥了重要作用,进而实现更智能化地洞察地球。
3.2.3 促进科学研究向开放科学发展。开放科学已成为科学研究新的发展方向,包括对出版物的开放访问、开放源码软件程序、开放数据、开放样本和开放工作流。许多地球科学数据门户现在都有 Python 或 R 包,使用户能够直接从工作流中搜索和访问数据,并在地球科学中取得了各种成功应用;未来,工作流平台将广泛应用于地球科学领域。通过各种协议和接口,地球大数据变得更加开放、更易访问和更易于交互,使得开放的地球大数据研究成为新常态。
3.3 地球大数据服务全球变化研究和可持续发展目标
3.3.1 地球大数据服务全球变化研究。全球变化主要研究全球变化现象的内在联系,分析地球各圈层及地球系统中的物理过程、生物过程和化学过程的相互作用和机理,并对人类生存环境做出预测,以便人们更好地生存发展。全球变化研究系统工程涉及各种海量的参数与分布数据,且数据之间的关系复杂;地球大数据发展可以描述并模拟其复杂关系,然后进行功能分析,以支持决策和管理。地球大数据也将在碳中和相关研究与管理中发挥重大作用。
3.3.2 地球大数据促进联合国可持续发展目标实现。联合国可持续发展目标,旨在所有国家和利益攸关方携手合作,阻止地球的退化,以可持续的方式进行消费和生产,管理地球环境和自然资源,使地球能够满足后代的需求,让全球走上可持续且具恢复力的道路。通过综合集成资源、环境、生态和生物领域的地球大数据,构建可持续发展评价指标体系和决策支持平台,解决目前国际指标体系数据缺失和质量不高的问题,服务于联合国可持续发展目标的指标监测评估研究。
4 未来建议
4.1 建设跨学科和多维地球科学大数据平台
地球大数据发展将促进传统地球科学与地理信息学、数据科学等现代学科的整合。建议我国尽快建设多学科知识系统数字化连接新平台,利用先进的信息技术(如云计算、并行计算、超级计算、复杂网络、知识图谱、机器学习和人工智能等)对快速增长、异构、多源的海量数据进行数据挖掘、知识发现,促进复杂模型的开发,增强数据驱动和模型驱动方法的融合,為地球科学研究提供不可或缺的支持。
4.2 利用地球大数据资源建设推进国际科技合作
大数据是新的国家战略与大国博弈空间,地球科学大数据为应对全球挑战提供了基础。建议我国以地球大数据资源建设为抓手,促进各科学学科、不同利益相关者和不同地理尺度的决策者之间的对话,提供全球应对挑战的统一解决方案,通过国际地球科学计划开展科技合作,模拟和预测未来全球环境变化,拓展地球系统研究的新发现,为构建人类命运共同体和科技外交提供支撑。
(来源:中国科学院院刊)