论文部分内容阅读
                            
                            
                                开展互联网条件下的多源矢量空间数据获取与管理方法的研究,能够实现对互联网中广泛存在的多源矢量空间数据进行高效的获取、解析与管理,为GIS空间分析和空间数据挖掘提供更为丰富和实时的数据源,为大数据时代的地理信息技术研究提供便利。本文重点研究互联网条件下的矢量空间数据获取与管理技术。针对一般聚焦爬虫数据爬取方式单调、爬取效率低等问题进行优化,提出基于多线程并行和异步I/O模型的方法协同提升Web矢量空间数据获取的效率;针对多源异构的矢量空间数据结构,研究一种基于模板映射的数据解析方式,相比常规Web数据解析中使用的正则表达式解析法在准确性和稳定性方面均有提升;针对Web矢量空间数据结构复杂多变的问题,研究基于MongoDB对矢量空间数据进行对象化存储,有效的降低了空间数据管理的复杂度。本文的主要工作包括:1)提出了一种多策略并行的Web矢量空间数据高效获取方法。基于聚焦爬虫技术,在研究了多种开源爬虫框架的基础上,提出通过多线程和异步I/O两种策略,优化矢量空间数据的获取效率。2)提出基于模板映射的多源矢量空间数据自动解析技术。通过将结构化和半结构化文本数据转化为树状结构对象,基于给定的模板对互联网中的异构矢量空间数据进行解析,相比传统的正则表达式解析法来说,本方法在维持较高的解析准确度的基础上,通过模板映射技术有效提升了解析的稳定性。3)提出一种基于MongoDB数据库的多源矢量空间数据对象化存储方法,可管理由Web爬虫获取到的矢量空间数据。并提出了一系列REST数据管理API,实现矢量空间数据在云环境下的管理。4)基于上述方法,构建NetCrawler爬虫系统,实现了互联网条件下多源异构矢量空间数据的快速获取、解析与管理。并通过测试证实了所述方法的有效性。