论文部分内容阅读
在日地空间物理的研究中,极光是唯一可以通过肉眼观察到的地球物理现象。合理的极光形态分类对研究各类极光现象与地球磁层动力学过程之间的关系十分重要。随着我国极区高空大气物理观测系统的不断进步和发展,我国已经实现了对极光持续且系统的观测,为极光分类研究者开展极光形态分类研究积累了海量的高质量数据。面向极光形态分类研究,提供有效的极光数据管理和高效的数据服务,对于促进我国极地科学考察具有重要的应用价值与意义。本文针对极光形态分类研究过程中的数据管理与数据服务问题进行研究,主要贡献包括:(1)对基于机器学习和基于深度学习的极光形态分类过程进行了深入分析,将极光分类过程中产生的数据划分为三类:极光相关数据、算法相关数据和极光分类过程相关数据,并对这些数据进行了概念建模和逻辑建模。此外,为了支持极光原位分析,设计实现了基于内存数据库的快速访问原始极光数据的服务。(2)基于机器学习和深度学习生命周期管理,抽象了极光形态分类过程的步骤,建立了基于滑动窗口的重抽样算法,设计实现了基于蒙特卡洛交叉验证机制的极光形态分类过程自动迭代的数据服务。(3)为了支持极光分类研究者查询和浏览数据,设计了基于极光元数据的查询服务以及多分辨率的极光可视化浏览服务;使用感知哈希算法设计了基于内容的极光图像查询服务;设计了针对大量实验过程中产生的“训练数据-算法-模型性能”数据链的多种查询服务。(4)集成开源的大数据处理与分析框架,基于MapReduce并行计算框架实现了原始极光数据预处理的并行化;基于Spark并行计算框架实现了基于内容的极光图像查询、极光图像特征提取和基于机器学习技术的极光分类的并行化;集成深度学习框架Keras,提供深度学习模型训练和测试。(5)基于分布式PC集群的基础架构,设计实现了面向极光形态分类的数据管理与数据服务原型系统。