论文部分内容阅读
在大数据时代,数据己成为国家基础性战略资源的重要组成部分。随着GIS、RS、GPS等空间信息技术的飞速发展,空间数据的采集手段日趋多元化,地理信息技术在各行各业当中的应用也更加广泛和深入,由此也促使GIS大数据时代的到来。大数据是一把"双刃剑",高精度、广覆盖的矢量数据爆炸式的增长,为提升国家级宏观科学决策、社会监管、公共服务以及应急决策管理能力等方面提供了良好的契机;但同时如何有效地进行组织与管理大规模的矢量数据,使其发挥最大的效益,成为了目前实际应用当中迫切需要解决的难题。近些年来,云计算平台Hadoop的异军突起,基于分布式存储系统HDFS和并行计算系统MapReduce在大数据处理方面获得了良好的性能,成为大数据分析的主流技术之一。基于此,本文在大数据时代的背景下,借助云计算平台Hadoop的优势,结合我国土地行业信息管理系统的实际应用需求,针对矢量大数据管理关键技术及其应用模式,特别针对矢量大数据管理中的数据存储模型、空间索引、数据转换、空间查询、数据可视化以及耕地质量数据管理应用等方面开展了具体且深入的探讨和研究,提出了一套面向大规模矢量数据组织与管理的方法体系和关键技术,并通过实验验证了本文研究内容的可行性;同时设计与实现了云环境下全国耕地质量等别数据库管理原型系统,体现了本文研究成果的现实意义和实际应用价值。论文的主要研究内容包括以下四个方面:(1)矢量大数据云存储模型研究为满足云环境下矢量数据的处理和分析需求,本文结合矢量数据的特征以及Hadoop云平台的优势,提出了矢量大数据云存储模型——GeoCSV数据模型。首先,讨论了现有矢量数据存储模型的数据组织方式;其次,针对Hadoop分布式存储和并行计算模型的数据特征进行了研究,并在分析面向对象的空间几何要素模型的基础上,设计和实现了基于Key-Value的矢量数据云存储模型GeoCSV。(2)矢量大数据分布式R树索引方法研究为提高大规模矢量数据的检索效率,本文设计并实现了基于HDFS分布式存储系统的矢量大数据分布式R树空间索引。首先,在阐述空间索引原理的基础上,结合分布式存储的优势,讨论了云环境下空间数据分布式索引机制。其次,针对矢量数据的分布不均和数据量大小不一的特征,提出了基于空间编码的矢量数据划分策略,并基于此实现了分布式R树索引的并行构建。最后,通过实验从索引质量、负载均衡两个方面验证了不同分布式空间索引算法的效率和可行性。(3)矢量大数据并行处理方法研究基于以上研究内容,本文开展了矢量大数据并行处理方法的相关研究,主要包括三个方面:一是基于MapReduce编程模型实现了矢量数据的并行转换算法,将矢量数据从Shapefile文件格式并行转换到基于Key-Value模型的GeoCSV文本格式;二是,针对面向大规模的空间查询需求,设计并实现了矢量数据并行查询算法;三是,针对大规模矢量数据的快速可视化的应用需求,设计并实现了矢量数据瓦片金字塔模型的并行化快速构建算法;同时,结合实测数据对以上三部分处理算法进行了试验,验证了本文矢量数据并行处理算法的效率和可行性。(4)云环境下全国耕地质量等别数据管理应用基于以上开展的矢量大数据关键技术研究成果,本文结合土地信息系统行业实际应用需求,设计了云环境下全国耕地质量等别数据管理原型系统框架,并进行了实际软硬件环境的部署,对关键技术内容进行了测试和分析。通过该部分内容,一方面验证了本文研究内容的可行性;另一方面,也表明本文研究的内容具有一定的现实意义和使用价值。