基于Spark的地理空间大数据查询处理技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:haobs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术飞速发展,人类已经进入大数据时代。智能手机移动应用以及各种物联网工程等产生了大量的空间数据。这其中,处理地理空间数据在这些应用中具有着重要的意义。如何快速、高效的查询、分析如此大量的空间数据成为了一个巨大的挑战。Spark,一个新型的、基于内存计算的通用分布式计算框架,通过提供可以内存存储的弹性分布式数据集(RDD),在方便分布式并行程序开发的同时,突出的性能优势使得其在快速、高效处理大数据方面取得了巨大的成功。因此本文基于Spark,在充分研究空间数据查询处理相关技术的基础上,设计实现了地理空间大数据集群内存计算原型平台,并命名为GS-Spark。该平台广泛扩展了Spark,使其支持空间数据类型、空间索引以及对空间数据的高效查询分析。平台体系结构由三层构成,包括空间数据存储层、空间数据表示层以及空间数据查询层。其中在空间数据存储层,实现空间数据存储,并基于R树、四叉树索引,构建了二层结构的分布式空间索引;在空间数据表示层设计了用于表示空间数据的RDD以及用于表示分布式空间索引数据的IndexGeoRDD;在空间数据查询层,基于空间数据表示层实现了范围查询、k近邻查询以及连接查询等多种重要空间查询操作。具体工作如下:(1)对平台实现过程中涉及的数据处理技术,包括空间数据分区技术、STR R树索引构建技术等进行了研究分析。(2)研究了分布式索引构建技术,设计了能够契合分布式并行编程计算模型的空间索引结构,并基于Spark实现,通过实验对比,相对于其他基于Hadoop的空间索引构建程序,如SpatialHadoop,具有更高的效率。(3)深入分析了分布式范围查询、k近邻查询以及连接查询相关技术及涉及的算法,并基于Spark平台实现。通过实验对比分析,相对于当前基于Hadoop的空间数据查询分析程序SpatialHadoop,表现出了更高的性能。综上所述,GS-Spark能够完善的支持对地理空间数据的查询处理,经过初步实验分析,相对于SpatialHadoop,GS-Spark整体表现出更优的性能,尤其在应对迭代式查询分析场景,更进一步体现GS-Spark性能优势。
其他文献
摘 要 卒中后认知功能障碍(post-stroke cognitive impairment, PSCI)是指在卒中这一临床事件发生后6个月内出现的达到认知功能障碍诊断标准的一种综合征,对其进行早期诊断及干预具有重要的临床意义。了解PSCI的发病机制对干预和治疗PSCI具有重要的指导作用。本文概要介绍有关PSCI发病机制的研究进展。  关键词 卒中后认知功能障碍 血管性痴呆症 发病机制  中图分类
农村地区饮用水水源中存在微污染物。由于地域和经济条件的限制,农村地区的供水方式和处理方式有着自身的特点。为解决农村饮用水中出现的新问题,并为农村饮用水处理提供依据
目的探讨对绝经后无症状子宫内膜增厚患者的处理原则。方法对48例绝经后无症状但B超示子宫内膜增厚患者进行诊断性刮宫或宫腔镜探查。结果48例绝经后无症状子宫内膜增厚的患
做好一张常规的H—E切片是保证诊断的关键.切片质量不好,导致细胞形态观察不清或出现一些人为现象可能造成误诊.为了解病理切片中的人为现象,弄清人为现象的原因,笔者就病理切片中
细菌内毒素可引起发热、微循环障碍、内毒素血症、脓毒性休克和弥散性血管内凝血等。鲎试验法是最常用的内毒素检测方法,其分为凝胶法和光度测定法,后者又可分为浊度法和显色