论文部分内容阅读
近年来随着地理空间数据的爆炸型增长,矢量空间数据存储与挖掘日益成为空间信息科学领域的研究热点。如何高效地存储和管理海量矢量空间数据,并从中挖掘有用的地学知识,成为地学领域亟待解决的问题。本文在非关系数据库和MapReduce模型等理论的基础上,以矢量空间数据为研究对象,提出了在云环境下多用户存储、多类型数据转换和海量矢量空间数据处理等三种矢量空间数据存储与处理机制,基于文档型数据库MongoDB和并行计算框架Hadoop实现了矢量空间数据云存储系统,并最终实现与自主研发的地理知识云服务平台GeoKSCloud的紧密集成;总结了MapReduce模型下对图算法进行整体优化设计的三种途径及其具体解决方法,据此设计并实现了马尔可夫并行聚类算法。主要研究内容和成果如下:1.综述了矢量空间数据存储理论与技术的研究现状,探讨了NoSQL数据库的特点,阐述了MongoDB数据数据库的特点及应用场景;从并行聚类和数据挖掘平台两个方面总结了云环境下的并行聚类研究现状,并详细介绍了MapReduce模型、聚类概念与流程、经典聚类算法、图聚类算法等相关理论与技术。2.开展了矢量空间数据存储机制以及云存储系统设计与实现方面的研究。提出了多用户存储、多类型数据转换和海量矢量空间数据处理等三种存储与处理机制:即利用MongoDB存储矢量空间数据及其元数据,利用开源简单要素库OGR实现异构矢量空间数据的转换与读写,借助Hadoop完成海量矢量空间数据的处理与挖掘任务。之后,依托于地理知识云平台GeoKSClou d的基本框架,提出了由数据层、业务层和表现层三部分组成的系统架构,通过集群搭建、数据存储、导入导出、数据库访问、数据处理等方面对系统进行了详细设计,最终实现了矢量空间数据云存储系统。3.开展了在MapReduce模型下图算法的优化设计方法,以及马尔可夫聚类算法并行化方面的研究。根据图结构拓扑关系的复杂性,探讨了MapReduce模型下图算法的优化设计方法,主要对消息传递机制、基于本地聚合的数据约简、基于Mapper内部聚合的数据约简等三个途径进行了优化,并提出了相应的具体解决方法。之后,将MCL算法分解为矩阵表示、扩张操作、膨胀操作和算法整合等部分。采用子矩阵方式表达矩阵,在扩张操作和膨胀操作中提出了并行化方案,并进行了并行策略的多次优化。最终,通过整合各操作实现了并行化算法MR-MCL。4.开展了VectorDB云存储系统、MR-MC L算法的性能测试与评价工作。结果显示,VectorDB比PostGIS具有更加强大的读取性能,VectorDB在并行处理方面比MongoDB更有优势,MR-MCL算法具有良好的扩展性与高效性。