论文部分内容阅读
空间数据组织与索引是空间信息技术应用的基础。随着智慧城市的快速推进、VGI(Volunteered Geographic Information)及 LBS (Location Base Service)应用的迅速发展,空间数据呈现出爆炸式增长,面对这些类型多样、体量庞大、增量迅速,以多维域和非结构化为特征的空间大数据,现有组织与索引方法出现了查询与分析效率低下、存储与传输成本过高等一系列问题。针对这些问题与挑战,建立有效组织与索引方式是推动空间大数据应用与分析的关键。空间数据库是空间数据管理的主要场所,其研究主题包括空间数据模型、空间数据组织、空间索引以及空间操作等。当前空间数据库研究主要存在三个方面的问题:①空间划分方面:无论是以空间驱动的“忽略对象的空间划分”,还是以对象驱动的“忽略空间的对象划分”,都没顾及地理对象的群体定位特征,使得当前空间划分的适应性受到限制;②组织存储方面:现有组织方式将地理对象离散化存储,割裂了地理要素间的联系,没有充分顾及地理对象的空间邻近性与空间异质性,难以平衡空间数据的多维域与计算机的线性结构化之间的基本矛盾,导致现有组织与索引方式效率低下,支持地理计算和地理场景模拟能力明显不足;③空间索引与空间操作方面:现有平衡树索引结构保证了查询性能却带来了较大的构建与更新代价,非平衡树结构保证了构建与更新效率,却难以处理聚集分布模式下产生的数据倾斜问题,且忽略了空间数据组织存储模型的重要影响,缺乏空间索引与组织存储模型一体化的高效空间操作算法。由此可见,现有的空间数据组织与索引方法研究注重计算机技术实现主题,缺乏对地理规律和空间信息科学领域知识的重视,不能有效解决计算机结构化线性存储与非结构化多维空间数据之间的矛盾,难以满足大数据时代海量空间数据的组织与索引需求。为了突破以对象离散化与存储结构化为特征的现有空间数据组织与索引方式,本文针对空间数据组织与索引领域上述三个关键问题展开研究。主要研究内容与成果如下:(1)空间分布模式探测与空间划分方法。从对象的空间邻近性与空间异质性入手,在空间分布模式分类与定量参数描述的基础上,引入划分子区面积与周长变异系数指标,提出了空间分布模式的快速探测方法。随后引入空间邻近性的定量描述指标局部密度p和空间异质性的定量描述指标斥群距离δ,设计实现了聚集空间分布模式下多目标约束的局部聚类空间划分方法,并给出了基于决策图的离群对象优化方法。(2)顾及空间邻近性与空间异质性的层次嵌套组织模型。从邻近性与异质性对空间数据组织的影响机制与约束规则入手,基于面向文档的非关系模型,针对具有层次嵌套结构与多种地理现象共存并相互作用的地理综合体,设计了空间数据的层次嵌套组织模型,向上实现了模型之间的嵌套打包组织方法,向下实现了模型内部模式自由、易扩展的非结构化组织方法。(3) PatternList空间索引。分析数据结构的对空间索引查询、更新与维护代价的重要影响,引入概率化的线段跳表结构,设计并构建了半平衡空间索引PatternList。给出PatternList的查找、插入、删除操作流程和三种操作的时间复杂度分析。随后结合层次嵌套组织模型设计实现了 PatternList支持下的空间数据操作算法与动态批量更新策略。三大主要研究内容紧密相连层层递进,空间分布模式探测与空间划分方法是整个研究的基础,层次嵌套组织模型是数据组织存储的模式,PatternList空间索引结构是空间划分与层次嵌套组织模型的映射,PatternList支持下的空间数据操作为本文空间数据组织与索引方法提供算法支撑,最终构建了 VGEs原型系统,对空间数据的层次嵌套组织模型、半平衡PatternList空间索引结构以及相应空间操作算法进行了实现,并使用典型测试数据集验证了本文自适应空间划分方法、层次嵌套组织模型与空间索引结构的可行性与有效性。本文重点突破空间数据组织与索引关键技术,并为空间数据组织与索引的研究提供思路与方法上的拓展。研究成果不仅丰富了数据组织与索引方法,还提高了 GIS的空间数据服务能力。