论文部分内容阅读
随着遥感图像处理技术的不断发展,遥感图像处理方式从传统的人工目视解译、单机处理向着算法智能化、分布式集群处理方向发展。本文基于分布式内存计算框架Spark,深入研究了分布式环境下遥感图像并行化处理问题,设计了一种分布式遥感图像存储管理方式,提出了一种并行化的遥感图像场景分类算法,最后设计构建了基于Spark平台的遥感图像处理系统。本文主要研究内容如下:(1)基于分布式存储系统进行遥感图像存储管理。本文采用分布式文件系统HDFS进行原始遥感图像数据的一级存储,保证图像数据的安全可靠,避免对原始数据的破坏性修改。在此基础之上,通过HBase面向列式的非关系型数据库,对遥感图像数据进行二级存储,设计了面向列式的遥感图像数据划分策略,对大尺度遥感图像数据进行数据划分,统一存储于HBase中,完成了遥感图像数据的分布式存储管理功能。(2)基于分布式环境下遥感图像场景分类问题的并行化研究。本文通过研究分布式环境下遥感图像场景分类问题,提出了基于人工信息特征SURF和深度学习语义特征的遥感图像场景分类并行算法。首先对于遥感图像数据提取SURF特征,采用VLAD算法重编码形成规范化的特征信息;然后采用VGG16预训练网络进行迁移学习,提取遥感图像高层语义特征信息,对两种特征进行归一化处理和PCA降维之后,融合作为最终的遥感图像场景分类特征,再采用随机森林算法进行分类器训练,取得了良好的实验效果。本文采用了Spark并行计算处理平台,通过设计遥感图像特征提取过程中的数据并行化和随机森林训练过程中的模型并行化,基于上述算法设计模型,实现了在Spark平台下并行化处理遥感图像场景分类的研究。(3)基于Spark分布式计算框架构建遥感图像处理系统。本文通过分析遥感图像处理过程,基于Spark平台构建了遥感图像处理系统。首先采用HDFS和HBase进行遥感图像数据分布式存储,然后通过GDAL遥感图像处理库,完成遥感图像数据的预处理任务。再采用Spark计算框架,通过整合其他算法资源库,提供遥感图像处理功能。在此基础之上,通过对系统参数的优化研究,得到了一组较优的系统参数;通过对系统架构的优化研究,引入Kubernetes进行系统监控管理,实现了基于Spark平台的遥感图像处理系统构建。