论文部分内容阅读
随着信息技术飞速发展,人类已经进入大数据时代。智能手机移动应用以及各种物联网工程等产生了大量的空间数据。这其中,处理地理空间数据在这些应用中具有着重要的意义。如何快速、高效的查询、分析如此大量的空间数据成为了一个巨大的挑战。Spark,一个新型的、基于内存计算的通用分布式计算框架,通过提供可以内存存储的弹性分布式数据集(RDD),在方便分布式并行程序开发的同时,突出的性能优势使得其在快速、高效处理大数据方面取得了巨大的成功。因此本文基于Spark,在充分研究空间数据查询处理相关技术的基础上,设计实现了地理空间大数据集群内存计算原型平台,并命名为GS-Spark。该平台广泛扩展了Spark,使其支持空间数据类型、空间索引以及对空间数据的高效查询分析。平台体系结构由三层构成,包括空间数据存储层、空间数据表示层以及空间数据查询层。其中在空间数据存储层,实现空间数据存储,并基于R树、四叉树索引,构建了二层结构的分布式空间索引;在空间数据表示层设计了用于表示空间数据的RDD以及用于表示分布式空间索引数据的IndexGeoRDD;在空间数据查询层,基于空间数据表示层实现了范围查询、k近邻查询以及连接查询等多种重要空间查询操作。具体工作如下:(1)对平台实现过程中涉及的数据处理技术,包括空间数据分区技术、STR R树索引构建技术等进行了研究分析。(2)研究了分布式索引构建技术,设计了能够契合分布式并行编程计算模型的空间索引结构,并基于Spark实现,通过实验对比,相对于其他基于Hadoop的空间索引构建程序,如SpatialHadoop,具有更高的效率。(3)深入分析了分布式范围查询、k近邻查询以及连接查询相关技术及涉及的算法,并基于Spark平台实现。通过实验对比分析,相对于当前基于Hadoop的空间数据查询分析程序SpatialHadoop,表现出了更高的性能。综上所述,GS-Spark能够完善的支持对地理空间数据的查询处理,经过初步实验分析,相对于SpatialHadoop,GS-Spark整体表现出更优的性能,尤其在应对迭代式查询分析场景,更进一步体现GS-Spark性能优势。